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复杂 大 系统 的 科学 研究 往往 都 需要 收集 和 处 理 大 量 反 映 系统 特征 和 运行 状态 
的 数据 信息 , 这 类 原始 数据 集合 由 于 样本 数量 巨大 , 刻 画 系统 特征 的 指标 变量 众多 ， 
并 且 带 有 随机 性 质 , 以 致 于 形成 了 规模 宏大 、 复 杂 难 辨 的 数据 海洋 .利用 统计 学 和 
数学 方法 对 多 维 复杂 数据 集合 进行 科学 的 分 析 , 挖掘 出 隐藏 在 复杂 海量 数据 中 的 规 
律 和 信息 , 就 是 多 元 统计 分 析 研究 的 基本 内 容 . 

大 型 高 能 物理 实验 就 是 典型 的 复杂 大 系统 的 科学 研究 工作 . 20 世纪 80 年 代 
末 北 京 正 负 电子 对 撞 机 (BEPC) 和 北京 谱 仪 (BES) 的 建成 , 是 中 国 高 能 加 速 器 实 
验 物理 的 真正 开端 . 在 北京 谱 仪 上 进行 实验 工作 的 研究 组 是 以 谱 仪 的 名 称 (Beijing 
Spectrometer) 命名 的 , 简称 BES 合作 组 ， 它 是 由 多 国 物 理学 家 组 成 的 国际 合作 研 
究 组 , 我 国 物理 学 家 在 其 中 占有 主导 性 的 地 位 . 北京 谱 仪 成 功 地 运行 到 2004 年 , 获 
取 了 T 各 能 区 海量 的 高 能 物理 实验 数据 . 在 此 基础 上 , 应 用 多 元 统计 分 析 方法 对 实 
验 数据 进行 分 析 , 获得 了 大 量 居于 当时 世界 领先 水 平 的 物理 成 果 . 其 中 , + 轻 子 质量 
的 精确 测量 、2~5GeV 能 区 RR 值 的 精确 测量 、 共 振 态 X(1835) 的 实验 观察 、o 粒 
子 的 实验 确定 , 更 是 引起 当时 国际 高 能 物理 界 广泛 瞩目 的 重大 成 就 

为 了 保持 和 发 展 我 国 在 高 能 物理 * 案 能 区 实验 研究 的 领先 地 位 , 我国 政府 又 
拨 巨 资 对 北京 正 负电 子 对 撞 机 和 北京 谱 仪 进行 升级 改进 , 称 为 BEPCII 和 BESIIT 
BEPCII 的 设计 指标 是 产生 粒子 反应 的 强度 约 为 原 对 撞 机 的 100 倍 , BESIII 的 性 
能 则 比 原 北京 谱 仪 有 大 幅度 的 提高 . 目前 , BEPCII 和 BESIII 己 经 完成 安装 , 并 在 
2008 年 开始 实验 取 数 . 有 理由 期 望 , 利用 升级 改进 后 的 BESIII 可 以 获得 比 原 北京 
谱 仪 更 多 、 更 精细 、 更 重要 的 物理 成 果 . 为 了 达到 这 一 目标 , 应 用 比 原 北 京 谱 仪 数 
据 分 析 更 为 精细 、 更 为 有 效 的 多 元 统计 分 析 方 法 成 为 一 个 十 分 重要 和 急迫 的 任务 . 
事实 上 , 多 元 统计 分 析 方 法 应 用 于 高 能 物理 实验 数据 分 析 近 年 来 已 经 成 为 国际 高 能 
物理 界 的 一 种 普遍 趋势 . 

本 书 对 于 实验 数据 分 析 中 , 特别 是 高 能 物理 实验 数据 分 析 中 涉及 的 多 元 统计 分 
析 方 法 作 一 概略 的 介绍 . 重点 讨论 统计 识 另 别 的 基本 原理 以 及 进行 统计 识别 的 具体 
方法 ; 对 于 复杂 的 数学 理论 , 只 介绍 其 结果 , 而 不 作 深 奥 的 证 明 . 目的 是 希望 读者 能 
够 通过 本 书 掌握 多 元 统计 分 析 的 方法 并 将 其 付 诸 实施 , 特别 是 能 在 BESIII 的 数据 


, 葡 ， 前 
分 析 中 起 到 一 定 的 作用 . 
作者 诚 灵 希望 得 到 专家 和 读者 的 批评 和 指正 . 
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第 一 章 绪 论 


复杂 大 系统 的 科学 研究 取决 于 对 系统 结构 、 性 能 深刻 透彻 的 认识 , 系统 研究 对 
象 运动 规律 的 掌握 , 以 及 系统 运动 规律 的 准确 判断 和 预见 . 复杂 大 系统 的 科学 研究 
往往 都 需要 收集 和 处 理 大 量 反映 系统 特征 和 运行 状态 的 数据 信息 , 这 类 原始 数据 集 
合 由 于 样本 数量 巨大 , 刻画 系统 特征 的 指标 变量 众多 , 并 且 带 有 随机 性 质 , 从 而 形 
成 了 规模 宏大 、 复杂 难 辨 的 数据 海洋 . 如 何 认识 和 分 析 高 维 复杂 数据 集合 中 的 内 在 
规律 性 , 简捷 地 把 握 系统 的 本 质 特征 ; 如 何 对 高 维 复杂 数据 集合 进行 综合 、 变 换 , 将 
隐藏 在 其 中 的 重要 信息 集中 提取 出 来 ; 如 何 充分 发 掘 数据 中 的 丰富 内 涵 , 清晰 地 展 
示 系 统 的 结构 特征 和 系统 元 素 间 的 内 在 联系 , 直观 地 描绘 系统 的 运动 过 程 ; 这 些 都 
是 复杂 大 系统 的 科学 研究 取得 正确 的 科学 成 果 的 基础 和 有 效 工 具 ， 利 用 统计 学 和 
数学 方法 对 多 维 复杂 数据 集合 进行 科学 分 析 的 理论 和 方法 , 就 是 多 元 统计 分 析 研 究 
的 基本 内 容 . 

大 型 高 能 物理 实验 就 是 典型 的 复杂 大 系统 的 科学 研究 工作 . 多 元 统计 分 析 方 法 
应 用 于 高 能 物理 实验 数据 分 析 近 年 来 已 经 成 为 一 种 趋势 . 本 书 对 于 实验 数据 分 析 
中 , 特别 是 高 能 物理 实验 数据 分 析 中 涉及 的 多 元 统计 分 析 问 题 作 一 概略 的 介绍 . 对 
于 多 元 统计 分 析 更 广泛 和 深入 的 了 解 , 可 参考 有 关 的 文献 和 书籍 h~". 为 了 解 多 元 
统计 分 析 方 法 所 需 的 概率 和 数理 统计 知识 , 可 参考 文献 和 书籍 8~11. 


1.1 模式 和 模式 识别 


我 们 在 生活 中 时 刻 都 在 自觉 或 不 自觉 地 进行 模式 识别 . 回顾 四 周 , 我 们 会 认 出 
熟识 的 家 人 和 不 认识 的 陌生 人 , 能 认 出 周围 的 物体 是 椅子 还 是 计算 机 ; 听 到 声音 , 能 
分 辨 出 是 演奏 音乐 还 是 汽车 在 街 上 奔驰 ; 闻 到 气味 , 能 区 分 是 花 的 芳香 还 是 炸 带鱼 
的 腥 味 ……: 凡 此 种 种 , 都 因为 人 类 具备 模式 识别 的 能 力 . 

广义 地 说 , 存在 于 时 间 和 空间 中 的 可 观察 事物 , 它 所 具有 的 特定 的 形态 或 信息 ， 
都 可 以 称 之 为 模式 . 不 同 的 事物 可 以 有 截然 不 同 的 或 者 相似 的 形态 特征 , 因而 可 以 
区 别 它们 是 否 不 同 或 者 是 否 相 似 . 通常 , 把 每 个 个 体 具 有 的 特定 的 形态 或 信息 称 为 
模式 , 而 具有 相似 形态 的 不 同 个 体 的 集合 称 为 模式 类 (或 简称 为 类 ). 另 一 种 习惯 的 
说 法 是 将 模式 类 称 为 模式 , 而 把 该 模式 类 中 个 别 的 具体 模式 称 为 样本 . 这 种 用 词 的 
不 同 可 以 从 上 下 文 分 清 其 含义 而 不 致 混淆 . 

”所 谓 模式 识别 , 就 是 将 观测 到 的 某 一 具体 事物 正确 地 归 入 某 一 类 别 . 


.2 ， 第 一 章 绪 论 


模式 类 可 以 有 不 同 的 级 别 . 如 自然 界 的 生物 物种 可 以 区 分 为 动物 、 植物 和 微 生 
物 , 动物 中 有 人 鱼 类 、 鸟 类 之 分 等 等 . 模式 识别 一 般 是 在 同一 级 别 的 模式 类 中 将 不 同 
样本 区 分 为 不 同 的 子 类 . 例如 可 以 有 这 样 的 命 古 : 怎样 区 分 公 羊 与 母 羊 , 怎样 区 分 
雄性 动物 与 肉 性 动物 ; 而 不 会 有 这 样 的 命题 : 怎样 区 分 公 羊 与 瞧 鱼 ， 

模式 识别 在 科学 研究 中 , 特别 是 在 实验 数据 的 分 析 中 具有 广泛 的 应 用 . 

对 特定 的 一 个 或 若干 个 过 程 进行 实验 测量 , 其 目的 通常 是 研究 产生 这 些 过 程 的 
物理 机 制 , 或 者 是 寻找 新 的 物理 现象 . 例如 在 北京 正 负电 子 对 撞 机 的 北京 谱 仪 实验 
中 , 通过 研究 正 负 电子 对 挤 产 生 的 下 述 反 应 


ee  — W(25) — ttt — ethTvyeVevv, (1.1.1) 


来 研究 + 轻 子 对 的 产生 0 实验 给 出 了 wy(28) -ttt- 衰变 分 支 比 的 世界 首次 测 
量 值 . 北京 谱 仪 实验 中 , 正 负电 子 会 产生 大 量 的 反应 过 程 , 式 (1.1.1) 所 示 的 过 程 只 
是 其 中 极 小 的 一 部 分 .对 于 该 项 研究 , 式 (1.1.1) 所 示 的 过 程 是 需要 寻找 的 反应 模 
式 , 称 为 信号 模式 , 或 简称 为 信号 , 由 该 反应 模式 产生 的 事例 称 为 信号 事例 ; 大 量 存 
在 的 所 有 其 他 的 反应 模式 , 称 为 本 底 模式 , 或 简称 为 本 底 . 该 过 程 的 数据 分 析 , 实际 
上 陨 是 根据 实验 数据 把 实验 中 产生 的 所 有 反应 事例 分 类 为 信号 事例 和 本 底 事例 的 
过 程 和 方法 , 是 一 种 特定 形式 的 模式 识别 . 这 一 类 的 模式 识别 的 过 程 和 方法 在 高 能 
物理 实验 研究 乃至 一 般 的 科学 研究 中 具有 典型 意义 . 


1.2 模式 识别 系统 


有 两 种 基本 的 模式 识别 方法 : 统计 模式 识别 方法 和 结构 (名 法 ) 模式 识别 方法 . 
高 能 物理 实验 的 研究 对 象 都 是 随机 过 程 和 随机 变量 , 它们 都 服从 相应 的 统计 分 布 ， 
所 以 这 里 只 讨论 统计 模式 识别 方法 . 对 于 大 多 数 科学 实验 , 观测 量 的 测量 大 多 存在 
有 具有 统计 性 质 的 误差 , 也 适用 统计 模式 识别 方法 . 

模式 识别 系统 由 两 个 过 程 组 成 , 即 设计 和 实现 . 设计 是 指 用 一 定数 量 的 样本 
(训练 集 或 学 习 集 ) 进行 分 类 器 的 设计 . 实现 是 指 用 设计 好 的 分 类 器 对 待 识别 的 样 
本 进行 分 类 决策 . 这 样 的 模式 识别 称 为 监督 模式 识别 , 即 有 训练 样本 情况 下 的 模式 
识别 . 统计 模式 识别 系统 主要 由 四 部 分 组 成 : 数据 获取 、 预 处 理 、 特 征 选择 和 分 类 
决策 . 如 图 1.1 所 示 . 


训练 过 程 


图 1.1 模式 识别 系统 的 基本 构成 
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1.2.1 原始 数据 获取 


现代 高 能 物理 实验 通常 利用 大 型 探测 装置 对 研究 对 象 (如 加 速 器 或 宇宙 线 产 
生 的 粒子 反应 ) 进行 测量 , 实验 得 到 的 是 探测 装置 对 研究 对 象 所 记录 的 大 量 原始 数 
据 , 它们 包含 了 研究 对 象 的 模式 信息 03. 如 果 我 们 知道 了 一 个 反应 事例 的 初 态 和 末 
态 所 有 粒子 的 种 类 、 动 量 和 能 量 , 我 们 就 获得 了 该 反应 事例 的 所 有 可 观测 的 信息 . 
因此 高 能 物理 实验 探测 装置 的 测量 目的 就 在 于 得 到 所 发 生 的 所 有 反应 事例 中 粒子 
的 种 类 、 动量 和 能 量 . 探测 装置 能 够 直接 测量 的 基本 粒子 必须 满足 一 定 的 条 件 : 它 
们 必须 是 稳定 的 , 或 者 有 比较 长 的 寿命 , 以 至 于 可 以 在 探测 装置 中 飞 过 比较 长 的 距 
离 ; 它们 应 当 与 探测 装置 中 的 物质 有 相互 作用 , 以 至 于 可 以 被 探测 装置 所 测量 , 产 
生 测 量 信号 . 这 样 的 基本 粒子 只 有 相当 有 限 的 几 种 , 最 常见 的 是 


YY， et, 二， 本 ， K+, DB， P. (1.2.1) 


高 能 物理 实验 的 直接 观测 量 是 探测 装置 (及 其 电子 学 ) 对 于 每 个 反应 事例 中 的 所 有 
粒子 的 响应 输出 信号 , 一 般 分 为 时 间 (TDC) 信息 和 幅度 (ADC) 信息 . 由 于 一 个 实 
验收 集 的 反应 事例 数量 极 大 , 它们 只 能 用 高 速 计算 机 在 线 地 记录 和 存储 起 来 , 以 供 
今后 进行 离线 的 物理 分 析 . 


1.2.2 ”原始 数据 的 预 处 理 


高 能 物理 实验 探测 装置 直接 观测 记录 的 TDC 和 ADC 原始 数据 虽然 包含 了 
每 个 事例 的 全 部 可 观测 信息 , 但 它们 只 是 这 些 信息 的 间接 反映 , 不 能 直接 地 反映 粒 
子 反应 的 “ 面 瑶 ” 和 性 质 , 不 能 直接 用 来 作物 理 分 析 . 将 这 些 直接 记录 的 TDC 和 
ADC 原始 数据 转化 为 能 够 直接 反映 粒子 反应 性 质 的 物理 数据 的 过 程 称 为 预 处 理 . 
高 能 物理 实验 中 的 原始 数据 的 预 处 理 一 般 包 括 刻度 和 重建 , 这 当然 需要 对 该 实验 装 
置 和 实验 研究 目标 的 透彻 了 解 , 这 里 不 作 介绍 , 有 兴趣 的 读者 可 以 阅读 文献 [13] 及 
相关 的 文献 . 

1. “直接 ”实验 信息 

直接 观测 量 通过 预 处 理 后 , 一 般 转化 为 : 带电 径 迹 的 空间 飞行 轨迹 和 飞行 时 间 
(time-of Hight, 即 TOF) 信息 , 带电 径 迹 的 空间 飞行 轨迹 结合 磁场 的 数据 可 以 得 到 
带电 径 迹 的 动量 ; 带电 粒子 电离 能 损 的 信息 , 它 和 TOF 信息 都 可 以 用 来 作 带电 料 
子 种 类 的 鉴别 ; 具有 电磁 和 强 子 量 能 器 的 探测 装置 可 以 给 出 电梯 (ye=) 粒子 、p 主 
和 强 子 (nt, K+,p,5) 的 久 射 沉积 能 量 和 簇 射 形态 的 信息 . 

2.“ 间 接 ” 实 验 信 息 

利用 这 些 “ 直 接 ” 实 验 信 息 , 还 可 以 推导 得 到 “间接 * 实验 信息 . 
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(1) 事例 的 初级 顶点 | 

一 个 事例 如 果 产 生 2 条 以 上 的 带电 径 迹 , 由 这 些 带电 径 迹 的 交点 可 求 得 事例 
的 初级 顶点 , 在 正 负 电子 对 接 实 验 中 , 初级 顶点 相应 于 正 负 电子 对 撞 点 的 位 置 . 

(2) 短 寿命 粒子 存在 的 信息 

一 些 粒 子 的 寿命 极 短 , 一 旦 产生 几乎 立即 衰变 为 两 个 或 更 多 的 粒子 , 典型 的 例 
子 如 到 一 一 Wo 一 rr 等 . 短 寿命 粒子 存在 的 信息 可 由 所 谓 的 不 变质 
量 得 到 . 粒子 物理 告诉 我 们 , 若 粒子 A( 质 量 M) 衰变 为 ; 个 粒子 


A 一 1 十 2 十 :…… 十 元 (1.2.2) 


各 粒子 的 四 动量 分 别 记 为 pa,p1,… ,pj. 粒子 四 动量 定义 为 一 个 四 维 矢量 p= (E, ip)， 
E 为 粒子 能 量 , p 为 粒子 的 动量 . 这 j 个 粒子 的 四 动量 之 和 的 平方 称 为 它们 的 不 变 
质量 (或 有 效 质量 ) 平方 , 并 恰好 等 于 母 粒子 4 的 质量 平方 : 


本 局 后 


它 是 洛 伦 兹 变换 二 的 不 变量 , 即 在 不 同 的 惯性 系 中 M2 值 不 变 . 按照 这 一 性 质 , 可 
以 根据 两 个 光子 的 不 变质 量 是 否 等 于 0 或 n 的 质量 来 判断 ro 或 | 是 否 存在 , 根 
据 xt+x-n0 的 不 变质 量 是 否 等 于 w 的 质量 来 判断 w 是 否 存在 , 等 等 . 

(3) 长 寿命 粒子 存在 的 信息 , 次 级 顶点 

一 些 粒 子 的 寿命 比较 长 , 它们 产生 以 后 要 飞行 一 段 距 离 之 后 才 衰 变 成 两 个 或 更 
多 的 粒子 . 这 类 粒子 存在 的 信息 可 由 它们 衰变 的 次 级 顶点 给 出 . 不 稳定 粒子 衰变 时 
间 为 t 的 概率 密度 为 ] 

f(t) = ~e /", 

式 中 , 7 是 不 稳定 粒子 的 平均 寿命 ， 相 应 于 衰变 时 间 t, 粒子 的 飞行 距离 ! = typc. 
典型 的 例子 如 K& 一 xtn-(er = 2.6842cm), A 一 px-(cr = 7.89cm), 它们 在 北京 
谱 仪 实验 中 的 典型 飞行 距离 为 厘米 量 级 . 这 样 A 衰变 产生 的 p,m- 两 根 径 迹 的 交 
点 离 正 负电 子 对 撞 中 心 (初级 顶点 ) 有 一 定 的 距离 , 被 称 为 次 级 顶点， 如 果 收 集 大 
量 的 动量 相同 的 A 一 pr- 事例 , 次 级 顶点 到 初级 顶点 间 的 距离 应 当 服 从 指数 分 布 . 
对 于 K8 一 xtn” 衰变 , 情形 是 类 似 的 . 因此 , 在 研究 末 态 包含 长 寿命 粒子 的 反应 
时 , 次 级 项 点 位置 也 常常 作为 粒子 反应 的 一 个 重要 输入 量 . 

(4) 不 可 探测 粒子 存在 的 信息 

一 些 粒 子 与 探测 器 物质 (几乎 ) 不 发 生 作 用 , 这 样 探测 器 不 能 给 出 它们 存在 的 
直接 信号 . 在 北京 谱 仪 正 负电 子 对 撞 实 验 中 , 属于 这 类 粒子 有 w K9,n,5 等 等 . 它 
们 的 存在 信息 可 用 丢失 质量 或 丢失 能 量 给 出 . 
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者 粒子 A( 已 知 质量 为 M) 衰变 为 3 个 粒子 
A 一 1 十 2 十 3 (1.2.4) 


其 中 粒子 1,2 是 可 探测 粒子 , 测量 到 的 能 量 和 动量 为 及 和 piii=1,2. 粒子 3 是 不 
可 探测 粒子 , 那么 粒子 3 的 质量 (如 果 粒 子 3 是 0 质量 粒子 , 如 中 微 子 , 则 为 粒子 3 
的 能 量 ) 等 于 


1/2 


Ma = Mmis = [mu — Ei E)?— (p+ pz) (1.2.5) 


如 北京 谱 仪 实验 中 , 粒子 反应 yw(2S) 一 px-i 的 不 可 探测 粒子 五 的 存在 可 利用 可 探 
测 粒子 p,r- 的 丢失 质量 是 否 与 五 的 质量 相 接近 来 推断 . 因此 , 在 研究 末 态 包含 不 ， 
可 探测 粒子 的 反应 时 , 丢失 质量 往往 是 输入 变量 之 一 . 

3. 反应 事例 的 实验 数据 

一 般 说 来 , 对 于 一 个 记录 到 的 反应 事例 , 它 的 末 态 粒子 的 以 下 实验 信息 构成 该 
事例 的 实验 数据 : 

带电 径 迹 的 数目 ; 

每 根 带电 径 迹 的 TOF 和 dE/dz 信息 ; 

每 根 带 电 径 迹 的 动量 ; 

Y 光子 的 数目 ; 

所 有 可 探测 粒子 的 簇 射 沉积 能 量 和 簇 射 形态 的 信息 

初级 顶点 位 置 ; 

次 级 顶点 位 置 (如 需要 ); 

不 变质 量 (如 需要 ); 

丢失 质 (能 ) 量 (如 需要 ); 
一 个 实验 收集 的 所 有 反应 事例 的 实验 数据 构成 该 实验 的 实验 数据 集 . 

一 个 事例 所 记录 的 全 部 实验 数据 (假定 是 w 个 ) 可 以 看 成 是 一 个 n, 维 向 量 ， 
每 一 个 分 量 是 该 事例 的 一 个 有 效 物理 量 的 表征 . 由 于 粒子 反应 都 是 随机 过 程 , 每 一 
个 这 样 的 物理 量 都 是 随机 变量 , 具有 各 自 的 概率 分 布 . 每 一 个 事例 的 这 个 mw 维 向 
量 的 具体 数值 是 w- 维 随机 向 量 的 一 个 实现 , 或 者 说 一 个 样本 , 它 可 以 用 测量 空间 
(nr 维 ) 中 的 一 个 点 来 表示 , 于 是 实验 数据 集 转化 为 测量 空间 中 的 一 个 数据 点 集 , 它 
是 实验 测量 数据 mw 维 随机 向 量 总 体 分 布 的 一 个 实现 , 是 进行 进一步 物理 分 析 的 基 
础 . 高 能 物理 实验 的 数据 向 量 的 维 数 n, 往往 达到 几 十 或 者 上 百 , 一 个 实验 收集 的 
反应 事例 数 往往 达到 106 ~ 1010 量 级 . 
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1.2.3 ”特征 提取 和 选择 


由 于 高 能 物理 实验 的 测量 空间 中 的 数据 点 集 数量 庞大 , 为 了 有 效 地 进行 分 类 识 
别 , 就 要 对 实验 数据 进行 筛选 和 变换 , 得 到 最 能 反映 分 类 本 质 的 特征 物理 量 , 这 就 
是 特征 提取 和 选择 的 过 程 . 特征 提取 和 选择 后 确定 的 物理 量 构成 的 空间 称 为 特征 
空间 , 于 是 测量 空间 中 的 数据 向 量 转 化 为 特征 空间 中 的 数据 向 量 , 测量 空间 中 的 数 
据点 集 转化 为 特征 空间 中 的 数据 点 集 , 它 成 为 进行 事例 分 类 的 直接 输入 变量 . 在 本 
书 以 后 的 陈述 中 , 除非 特别 说 明 , 作为 事例 分 类 器 直接 输入 变量 的 特征 向 量 也 称 为 
数据 问 量 . 

特征 提取 和 选择 应 遵循 三 个 原则 , 第 一 是 有 效 性 , 即 提 取 的 物理 量 应 该 能 够 有 
效 地 区 分 信号 和 本 底 ; 第 二 是 充分 性 , 即 提取 的 物理 量 能 够 完整 地 保留 事例 的 全 部 
有 用 信息 ; 第 三 是 具有 降 维 能 力 , 即 通 过 变换 , 可 把 维 数 较 高 的 测量 空间 (n; 维 ) 中 
的 模式 变 为 维 数 较 低 的 特征 空间 (n 维 ) 中 的 模式 , 这 就 能 有 效 地 减少 分 类 器 设计 
和 应 用 它 作 分 类 决策 所 需 的 计算 量 . 特征 空间 中 的 数据 向 量 是 由 测量 空间 中 的 数 
据 随机 向 量 通 过 变换 得 到 的 , 因而 它 也 是 随机 向 量 . 

应 当 指 出 , 大 型 的 科学 实验 一 般 具 有 多 重 研究 对 象 和 科学 目标 , 因此 实验 数据 
问 量 的 维 数 n. 需要 足够 高 ,以 能 包含 充分 多 的 实验 信息 供 各 种 研究 课题 的 需要 
但 对 于 某 一 特定 课题 而 言 , 只 需 提取 和 选择 与 该 课题 有 关 的 ” 维 变量 作为 特征 变 
量 就 可 以 作出 正确 的 分 类 , 一 般 n < mr 例如 , 为 了 区 分 人 的 性 别 , 只 需要 考察 人 
类 性 体征 特点 就 可 以 了 , 没有 必要 对 与 此 无 关 的 其 他 体征 进行 比较 分 类 . 同样 , 对 
于 同一 个 高 能 物理 实验 中 不 同 反 应 过 程 的 分 析 , 只 要 选择 与 各 自 过 程 相关 的 物理 量 
作为 各 自 的 特征 变量 , 这 样 就 大 大 降低 特征 空间 的 维 数 , 从 而 大 大 降低 分 析 的 困难 
程度 , 节省 计算 的 时 间 . 这 对 于 具有 庞大 数量 事例 数 的 高 能 物理 实验 极为 重要 . 


1.2.4 “分 类 决策 


分 类 决策 就 是 在 特征 空间 中 用 统计 方法 把 被 识别 的 对 象 归 为 某 一 类 别 , 基本 做 
法 是 根据 样本 训练 集 的 特征 变量 的 行为 确定 某 个 或 若干 个 判 据 , 使 得 按照 这 种 判 据 
对 识别 对 象 进行 分 类 得 到 的 效率 (正确 分 类 的 比例 ) 最 高 , 误 判 率 最 低 . 

由 于 实验 特征 空间 中 的 数据 向 量 是 多 维 随机 向 量 , 这 就 决定 了 基于 这 类 数据 的 
分 类 决策 过 程 是 多 变 元 统计 分 析 的 过 程 . 

高 能 物理 实验 中 的 模式 识别 , 就 是 将 观测 到 的 每 一 个 事例 正确 地 归 入 某 一 粒子 
反应 类 别 . 但 是 , 对 于 一 项 具体 的 研究 而 言 , 研究 者 感 兴趣 的 粒子 反应 可 能 只 有 一 
种 或 几 种 . 一 般 称 为 信号 , 此 外 的 反应 过 程 都 称 为 本 底 . 


1. 粒子 鉴别 和 事例 判 选 
高 能 物理 实验 的 数据 分 析 的 目的 是 把 信号 事例 从 大 量 本 底 事例 中 挑选 出 来 ( 称 
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为 事例 判 选 ), 然后 对 信号 事例 的 性 质 进行 进一步 的 研究 . 事例 判 选 一 般 经 过 两 个 步 
了 又: @ 粒子 鉴别 , @ 反应 过 程 拓扑 形态 的 鉴别 . 以 式 (1.1.1) 所 示 的 反应 为 例 , 首先 
我 们 要 确定 末 态 粒子 是 1 个 电子 和 1 个子 (实验 一 般 不 直接 测量 中 微 子 ), 由 于 实 
验 可 观测 的 粒子 种 类 有 式 (1.2.1) 所 列 的 几 种 , 所 以 首先 要 从 中 确定 所 研究 末 态 的 粒 
子 种 类 (本 例 中 是 电子 和 子 ), 这 是 一 个 多 总 体 的 模式 识别 问题 , 或 者 说 是 多 类 模 
式 的 判别 问题 . 其 次 , 我 们 要 确定 反应 确实 是 通过 中 间 态 t+t- 再 到 达 etpTvevevyv 
末 态 , 这 就 是 一 个 反应 过 程 拓扑 形态 的 识别 问题 , 识别 的 结果 总 是 将 所 有 的 事例 区 
分 为 信号 事例 和 本 底 事 例 , 是 一 个 2 个 总 体 的 模式 识别 问题 , 或 者 说 是 两 类 模式 的 
判别 问题 . 尽管 有 时 粒子 鉴别 和 反应 拓扑 形态 的 鉴别 不 一 定 截然 分 明 , 但 是 这 两 类 
判别 问题 在 事例 判 选中 总 是 存在 的 . 一 个 好 的 粒子 鉴别 判 据 (粒子 分 类 器 ) 应 当 对 
粒子 有 高 的 正确 判定 效率 , 有 低 的 误 判 率 . 一 个 好 的 事例 判 选 判 据 (事例 分 类 器 ) 应 
当 对 信号 事例 有 高 的 选择 效率 , 有 低 的 误 判 率 ( 即 对 本 底 事 例 有 低 的 选择 效率 或 高 
的 排除 率 ). 

2. 样本 训练 

对 于 一 个 测量 到 的 粒子 信息 , 怎样 判定 它 是 式 (1.2.1) 中 的 哪 一 种 粒子 呢 ? 解 
决 这 个 粒子 鉴别 问题 需要 采用 对 已 知 样本 进行 训练 的 方法 . 具体 地 说 , 就 是 利用 已 
知 是 et 粒子 的 数据 样本 外。w,xn( 下 标 中 的 。 表示 电子 , N。 表示 电子 样本 的 个 数 ， 
n 表示 用 n 个 特征 变量 表征 该 电子 样本 . 见 1.3.1 节 关 于 数据 矩阵 的 定义 ), 已 知 是 
ht 粒子 的 数据 样本 站, wxn, 以 及 已 知 是 Y, +,K+,p,5 的 数据 样本 XN,xn,…， 
根据 这 几 类 数据 样本 的 差异 寻找 出 一 组 判 据 , 使 得 它 对 每 种 粒子 都 有 高 的 正确 判定 
效率 , 有 低 的 误 判 率 . 寻找 这 组 判 据 的 过 程 称 为 训练 (或 学 习 ) 过 程 , 实际 上 就 是 分 
类 器 的 设计 过 程 . 然后 , 对 于 一 个 测量 到 的 粒子 (种 类 待定 ) 信息 , 应 用 该 判 据 来 判 
定 它 是 何 种 粒子 . 这 也 就 是 用 设计 好 的 分 类 器 对 待 识 别 的 样本 进行 分 类 决策 . 

类 似 地 , 对 于 一 个 测量 到 的 事例 信息 , 要 判断 它 是 不 是 某 个 特定 的 信号 事例 , 需 
要 利用 已 知 是 该 信号 事例 的 数据 样本 和 已 知 是 它 的 本 底 事 例 的 数据 样本 进行 训练 ， 
根据 这 两 类 数据 样本 的 差异 寻找 出 一 组 判 据 , 使 得 它 对 信号 事例 有 高 的 正确 判定 效 
率 , 有 低 的 误 判 率 . 然后 , 对 于 一 个 测量 到 的 事例 信息 , 应 用 该 判 据 来 判定 它 是 信号 
事例 或 本 底 事 例 . 

3. 训练 样本 的 获得 

我 们 看 到 , 高 能 物理 实验 数据 分 析 中 的 粒子 鉴别 和 事例 判 选 的 实现 , 首先 要 有 
各 种 粒子 的 数据 样本 和 各 种 粒子 反应 事例 的 数据 样本 ， 这 两 类 数据 样本 有 两 种 途 
径 可 以 得 到 : 蒙特 卡 罗 模 拟 数据 和 真实 实验 数据 . 

a. 蒙特 卡 罗 模 拟 数据 

先 讨论 粒子 反应 的 蒙特 卡 罗 模 拟 数据 . 假定 我 们 要 研究 的 是 bhabha 事例 , 即 
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ete- -ete- 反应 事例 , 所 谓 粒子 反应 的 蒙特 卡 罗 模 拟 数据 , 首先 是 根据 粒子 物理 
理论 的 预期 和 反应 初 态 正 负电 子 的 四 动量 (已 知 值 ), 计算 出 末 态 正 负电 子 的 四 动 
量 . 这 个 过 程 由 反应 的 产生 子 来 完成 , 它 依赖 于 粒子 物理 对 所 研究 的 反应 的 理论 了 
解 . 粒子 物理 界 对 于 不 少 粒子 反应 已 经 有 相当 透彻 的 了 解 , 有 了 相应 的 事例 产生 子 
可 以 使 用 , 特别 是 对 电磁 相互 作用 过 程 有 很 精确 的 理论 描述 , 因此 电磁 相互 作用 过 
程 的 产生 子 一 般 比 较 精确 可 信 . 比较 起 来 , 粒子 物理 对 于 强 作用 的 理论 描述 要 粗粮 
得 多 , 因此 涉及 强 作用 的 粒子 反应 的 产生 子 的 精确 性 比较 差 

知道 了 反应 末 态 粒子 的 四 动量 , 让 末 态 粒子 按照 自己 的 动量 和 方向 进入 探测 
器 , 与 探测 器 中 的 物质 发 生 作用 . 粒子 与 物质 的 相互 作用 也 是 按照 粒子 物理 的 各 种 
理论 模型 来 描述 的 , 这 一 过 程 十 分 复杂 . 目前 粒子 物理 学 界 通用 的 是 Geant 程序 杠 
架 D4， 它 汇集 了 人 类 对 于 粒子 与 物质 的 各 种 相互 作用 至 今 所 了 解 的 知识 ， 这 种 相 
互 作用 的 结果 , 就 得 到 了 探测 器 对 于 该 反应 末 态 粒子 的 探测 信号 . 这 一 切 都 是 通过 
计算 机 利用 理论 所 提供 的 模拟 数学 公式 进行 计算 得 到 的 , 所 以 称 为 模拟 计算 , 得 到 
的 数据 称 为 粒子 反应 的 蒙特 卡 罗 模拟 数据 ， 这 种 计算 的 过 程 好 像 是 用 计算 机 作物 
理 实验 . 这 个 过 程 在 高 能 物理 实验 数据 分 析 中 称 为 探测 器 模拟 . 如 果 理 论 所 提供 的 
数学 公式 是 正确 的 , 那么 所 得 到 的 粒子 反应 的 蒙特 卡 罗 模 拟 数据 与 粒子 反应 的 真实 
实验 数据 应 当 是 接近 的 . : 

为 了 把 信号 事例 从 实验 中 产生 的 全 部 事例 中 挑选 出 来 , 不 但 要 有 信号 事例 的 产 
生子 , 还 需要 有 实验 中 产生 的 所 有 反应 的 事例 产生 子 . 对 于 正 负电 子 对 擅 实验 而 言 
就 是 要 有 e+e- ,所 有 可 产生 过 程 的 事例 产生 子 . 所 谓 的 LUND 模型 提供 了 这 样 
的 产生 子 ba， 对 于 其 他 的 粒子 反应 研究 , 亦 需要 相应 的 所 有 可 产生 过 程 的 事例 产 
生子 . 一 般 这 类 产生 子 所 依据 的 理论 模型 比较 粗 糖 , 与 实验 中 的 真实 情况 有 所 差别 
所 以 基于 这 种 产生 子 确定 的 信号 /本 底 事例 判别 条 件 以 及 相应 的 信号/ 本 底 事 例 误 
判 率 与 实际 的 信号 /本 底 事例 误 判 率 存在 差异 , 在 实验 数据 分 析 中 ,必须 考虑 这 种 
差异 导致 的 系统 误差 

各 种 粒子 的 数据 样本 的 获得 则 比较 简单 , 任意 粒子 的 产生 器 都 是 十 分 容易 构造 
的 , 再 通过 探测 器 模拟 就 得 到 该 粒子 的 蒙特 卡 罗 模拟 数据 

蒙特 卡 罗 模拟 数据 样本 的 好 处 是 样本 量 可 以 任意 地 大 (只 要 计算 机 能 力 允 许 ) 
它 的 缺点 是 数据 样本 的 正确 性 和 精确 性 受到 理论 模型 的 正确 性 和 精确 程度 的 限制 
同时 它 不 能 反映 探测 器 电子 学 噪声 和 束 流 管道 中 正 负电 子 束 流 -气体 相互 作用 本 底 
带 来 的 对 真实 数据 的 影响 , 即使 加 入 了 这 种 噪声 和 束 流 -气体 相互 作用 本 底 的 模拟 ， 
由 于 模拟 公式 往往 缺乏 理论 根据 或 者 十 分 粗糙 , 也 不 一 定 能 反映 真实 情况 . 

b. 真实 实验 数据 

所 谓 粒 子 反应 的 真实 实验 数据 , 就 是 通过 一 定 的 事例 判 选 把 某 种 粒子 反应 事例 
判 选 出 来 . 例如 可 以 通过 某 些 判 据 把 辐射 bhabha 事例 , 即 ere- Ye+e- 反应 事 
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例 判 选 出 来 . 这 种 事例 的 末 态 电子 和 y 光子 可 以 具有 (0 ~ Eb) 各 种 能 量 (Bh 是 初 
态 电 子 束 流 能 量 ), 且 具 有 各 种 方向 . 这 样 , 我 们 就 获得 了 各 种 能 量 、 各 种 方向 的 电 
子 和 y 光子 的 真实 实验 数据 , 可 以 作为 粒子 鉴别 的 训练 样本 . 又 比如 可 以 通过 某 些 
判 据 把 ete- 一 J/y 一 pz 一 ntn-x0 一 xt+n-Yyy 事例 判 选 出 来 , 末 态 的 两 个 带电 
粒子 是 具有 各 种 方向 、 各 种 能 量 的 x+,r- 介子 , 这 样 , 我 们 就 获得 了 各 种 能 量 、 各 
种 方向 的 x+,r- 介子 的 真实 实验 数据 , 可 以 作为 粒子 鉴别 的 训练 样本 . 类 似 地 , 我 
们 可 以 通过 适当 判 据 把 末 态 包含 式 (1.2.1) 所 列 粒子 的 粒子 反应 事例 判 选 出 来 ， 获 
得 这 些 粒 子 的 真实 实验 数据 , 作为 粒子 鉴别 的 训练 样本 . 

真实 实验 数据 的 数量 受到 实验 收集 的 总 事例 数 和 粒子 反应 截面 的 限制 . 如 果 反 
应 截面 很 小 , 相应 的 反应 事例 只 占 收集 的 总 事例 数 的 很 小 一 部 分 , 实验 收集 的 总 事 
例 数 又 不 够 大 , 那么 反应 末 态 粒子 的 数量 就 不 大 . 对 于 统计 分 析 而 言 , 就 可 能 造成 
较 大 的 统计 涨 落 . 另 一 方面 , 通过 某 些 判 据 把 一 种 特定 的 反应 事例 判 选 出 来 , 可 能 
存在 误 判 , 即 混 有 其 他 本 底 事例 , 样本 不 纯 . 为 了 避免 这 种 本 底 污染 , 往往 把 事例 判 
选 判 据 设 定 得 严 一 些 , 降低 误 判 率 , 这 样 作 的 结果 提高 了 样本 的 纯度 , 但 牺牲 了 统 
计量 . 

高 能 物理 实验 数据 分 析 中 , 作 粒 子 鉴别 时 的 训练 样本 应 该 尽 可 能 使 用 真实 实验 
数据 样本 , 而 作 事 例 判 选 时 信号 事例 的 训练 样本 一 般 是 蒙特 卡 罗 模 拟 数据 样本 ， 
为 在 完成 信号 事例 的 判 选 之 前 , 不 可 能 获得 信号 事例 的 真实 实验 数据 样本 . 用 实验 
收集 的 全 部 事例 的 真实 实验 数据 样本 , 扣除 可 能 的 信号 事例 样本 (利用 蒙特 卡 罗 模 
拟 数 据 样本 确定 的 信号 事例 判 选 条 件 来 选择 ) 后 , 可 作为 本 底 事 例 的 训练 样本 . 
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前 面 已 经 提 到 , 事例 分 类 的 直接 输入 变量 是 n 维特 征 空间 中 的 数据 问 量 , 每 一 
个 n 维 数据 向 量 包含 了 一 个 特定 事例 的 所 有 可 观测 的 信息 , 或 者 说 代表 了 一 个 特 
定 的 事例 . 假定 我 们 有 六 个 事例 , 要 将 它们 区 分 为 信号 事例 和 本 底 事 例 . 这 NN 个 
事例 构成 ”维特 征 空间 中 的 N 个 样本 点 . 于 是 输入 数据 可 表示 为 如 表 1.1 所 示 的 
形式 
表 1.1 输入 数据 表 
样本 、\ 特征 变量 el e2 ej … en 


V1 T11 T12 ee T13 NG Tin 
人 2 T21 也 22 2 27 a Ton 
Ts Til Ti2 Pe Ti es Lin 


TN TNI TN2 二 TNj i TNn 
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或 表示 为 矩阵 形式 


Z11 ZI2……Tln zi 

T 

Tal To Ton Ta 
闭 Nxn 一 ， . 一 = (e1,€2,..… ,en) (1.3.1) 

T 

TN1 LN2'''XNn Nxn TN 

式 中 

小 i 二 (Pil, Ti2, ,Tin),, ? 一 1,2,..-,N, (1.3.2) 


表示 NN 个 样本 点 , 这 NN 个 样本 点 组 成 了 一 个 点 群集 合 . 所 有 的 样本 点 所 占据 的 空 
间 构 成 了 (n 维 ) 样本 空间 或 特征 空间 F e R". 每 个 样本 点 向 量 z; 称 为 特征 向 量 ， 
它 的 n 个 分 量 表示 事例 i 的 n 个 特征 物理 量 , 例如 事例 的 带电 径 迹 数 , 带电 径 迹 的 
动量 等 等 . 

数据 矩阵 的 每 一 列 描述 一 个 变量 ej， 


ej = (zj 227 ,TNI), j= 1,2,.…,n. (1.3.3) 


它 表 示 NN 个 事例 的 第 j 个 特征 物理 量 的 测量 数值 . 它 是 一 个 随机 变量 , 因此 有 其 
统计 特征 , 如 均值 (或 期 望 值 )、 方 差 、 协 方差 、 相 关系 数 等 . 所 有 变量 的 集合 构成 
(N 维 ) 变量 空间 吾 e RN. 可 以 用 样本 统计 量 来 估计 随机 变量 的 数字 特征 . 

变量 ej( 第 ; 个 特征 物理 量 ) 的 均值 元 


1 N 
2; 二 克 >》 xi, (1.3.4) 
i=1 
方差 5? 
N 
so (c £7)?, (1.3.5) 
N—1 人 
变量 ej 与 变量 ek 的 协 方差 sjx 
1 N 
sz 一 NT 》 (zi — 33) (zik — Zk) (1.3.6) 
?一 工 


它 用 于 测度 变量 ej 与 ek 的 相关 性 . 写成 矩阵 形式 


v=| . . | (1.3.7) 


Snl Sn2 '''é#nn 
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称 为 样本 的 协 方差 矩阵 . 相关 系数 ri 


Sjk 
一 9 1.3.8 
Tjk Sj Sk ( ) 


它 满足 -1 < rjs < 1, rj;k 量 纲 为 一 , 可 更 准确 地 表征 两 个 变量 间 的 相关 性 . 
1.3.2 ”模式 的 相似 性 度量 


尽管 不 同 的 模式 识别 理论 与 方法 之 间 存 在 差异 , 但 模式 的 所 有 分 类 与 描述 都 是 
以 若干 公认 的 假设 (公设 ) 为 基础 的 .其 中 关于 模式 的 相似 性 公设 可 陈述 为 : 如 采 
两 个 模式 的 特征 或 其 简单 的 组 成 部 分 仅 有 微小 差别 , 则 称 两 个 模式 相似 . 

最 简单 和 直观 的 分 类 方法 , 是 直接 以 不 同类 的 训练 样本 点 的 集合 所 构成 的 区 域 
表示 各 类 决策 区 , 并 以 角 距 离 或 点 距离 作为 样本 点 相似 性 (类 似 度 ) 度量 的 主要 依 
据 . 

1. 样本 点 矢量 间 夹 角 余 茂 

当 不 同 模式 类 的 样本 点 星 肩 状 分 布 时 ( 见 图 1.2), 可 用 夹 角 余弦 定义 两 样本 点 
的 角 距 离 , 即 角度 相似 性 函数 : 

riy 
s(T,Yy) = cos0 = elor (1.3.9) 
其 中 , 9 为 两 样本 点 矢量 x,y 之 夹 角 ; jz| 为 矢量 xz 的 模 . 夹 角 越 接近 于 0 ( 夹 角 余 
纺 越 接近 于 1), 两 样本 点 越 相似 . 即 若 s(z,y) > s(z,z), 则 认为 z 与 y 更 相似 些 . 


1.2 用 夹 角 余 弦 定 义 两 样本 点 的 相似 性 


2. 样本 点 间 的 距离 
样本 点 间 的 距离 常常 作为 样本 间 相 似 性 的 一 种 度量 , 即 两 个 样本 点 间 的 距离 越 
近 , 这 两 个 样本 越 相似 . 一 般 , 所 选 的 距离 函数 应 满足 下 列 条 件 : 
d(x,Yy) = d(y, 2), 
d(x,y) < d(x, z) + d(y, z), 
d(x,Yy) > 0, 
d(x,y) = 0, 当 且 仅 当 z = vy 时 . 


(1.3.10) 
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根据 不 同 的 应 用 目的 , 已 提出 多 种 满足 以 上 条 件 的 距离 函数 , 这 里 仅 列 出 常用 的 几 
种 : 
(1) Minkowsky 距离 


1/X 
d(z,Y) = 了 [zj 一 四 (1.3.11) 
j=1 


(2) Manhattan 曙 高 
d(x,y) = ,|x; — Yl, (1.3.12) 
和 1 


这 是 Minkowsky 距离 入 = 1 时 的 特例 . 
(3) Euclidean ( 欧 氏 ) 距离 


1/2 | 
d(z,y) = bE -| (1.3.13) 


这 是 Minkowsky 距离 入 = 2 时 的 特例 . 

上 述 距 离 使 用 时 要 注意 样本 各 输入 变量 分 量 的 量 纲 . 例如 某 一 样本 的 两 个 输 
入 分 量 分 别 为 长 度 和 压力 , 若 将 长 度 单位 由 毫米 改 成 厘米 , 压力 单位 由 厘米 汞 柱 改 
成 训 米 汞 柱 , 则 分 类 时 压力 的 影响 较 改变 前 将 大 为 增加 . 

(4) Mahalanobis ( 马 氏 ) 距离 


Pz,p) = (2 -pV zp), (1.3.14) 


其 中 , jx 为 总 体 的 均值 向 量 ; V 为 相应 的 协 方差 矩阵 . 

马 氏 距离 考虑 了 样本 的 各 输入 变量 分 量 的 统计 特性 , 特别 是 考虑 了 各 输入 变量 
分 量 的 相关 性 影响 ; 而 上 列 的 其 他 距离 均 没有 考虑 各 输入 变量 分 量 的 相关 性 . 当 协 
方差 矩阵 V 为 对 角 矩 阵 时 , 各 分 量 相互 独立 ; 特别 当 协 方差 矩阵 V 为 单位 矩阵 时 ， 
马 氏 距离 与 欧 氏 距 离 相 等 

以 上 的 各 种 臣 离 度量 在 实际 应 用 中 , 在 计算 的 复杂 性 方面 , 在 是 否 便于 进行 解 
析 分 析 方面 效果 各 不 相同 . 由 于 欧 氏 距离 在 许多 情况 下 便于 分 析 和 计算 , 因此 常常 
被 各 种 分 类 器 采用 . 


1.3.3 ”样本 点 的 权重 和 特征 向 量 数据 的 预 处 理 


1. 样本 点 的 权重 
一 般 情况 下 , 如 果 认 为 每 个 样本 点 的 重要 性 是 相等 的 , 则 对 每 一 个 样本 点 赋予 
同样 的 权重 wi = 1/N, i = 1,2,…,N. 但 是 , 如 果 每 个 样本 点 的 抽取 是 不 等 概率 的 ， 


1.3 ”数据 矩阵 与 样本 空间 . 13 . 
那么 , 每 一 个 样本 点 的 权重 w; 可 以 是 不 同 的 . 例如 , 在 进行 民意 测验 时 ,人口 较 多 
的 地 区 的 调查 数据 (样本 点 ) 应 当 比 人 口 较 少 的 地 区 的 调查 数据 (样本 点 ) 有 更 大 
的 权重 . 所 有 样本 点 的 权重 之 和 (总 权重 ) 应 当 等 于 1, 即 


N 
Dwi=1. (1.3.15) 
i=1 


考虑 样本 点 的 权重 后 , 相应 的 均值 、 方 差 、 协 方差 的 定义 需 改写 为 ; 
变量 ej 的 (加 权 ) 平均 5 


N 
Tj 二 ,wiriy, (1.3.16) 
《一 工 
方差 53 
N 
5 一 >》 ui 人 (za = en (1.3.17) 
=] 
变量 e; 与 变量 ek 的 协 方差 s 六 
3jk 一 >》 ai(zi 一 Fi) (Tik 一 zk). (1.3.18) 


“一 工 


2. 特征 向 量 数据 的 中 心 化 
特征 向 量 数据 的 中 心 化 是 对 数据 作 平移 变换 : 


Ti = ij — Ty, $= 1,2,...,N, 7 = 1,2,.…..,n. (1.3.19) 


该 变换 使 新 坐标 系 的 原点 O* 与 数据 点 群 的 重心 重合 , 而 不 改变 样本 反 辐 的 相互 位 
置 , 也 不 改变 数据 变量 各 分 量 闻 的 相关 性 , 但 带 来 计算 上 的 许多 便利 . 


定义 变量 空间 召 中 的 度量 矩阵 DD 为 
也 1 0 ...0 
0 102 和 
D= ， = diag (wi, Wa ** , WN ). (1.3.20) 
0 “WN 


对 于 变量 空间 中 的 任意 两 个 矢量 ej = (zzaj ZN) 和 eh = (ZXik, TY2k,*……， 
ZNk) 人, 定义 e; 和 ex 的 点 积 为 
N 


(ej, Ek)D 三 ej Dex = DY wariyTik. (1.3.21) 


i 二 1 
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车 考虑 样本 点 的 权重 , 且 数 据 被 中 心 化 , e; 变换 为 ey, 则 以 下 结论 成 立 : 
GD 任意 一 个 中 心 化 处 理 后 的 变量 ey 的 模 等 于 ej 的 标准 差 sj: 
记 中 心 化 处 理 后 的 新 变量 为 


ej = (Z1 — HjyT27 — Eyy TNI — By) ,j=1,2,.,n. (1.3.22) 


则 有 
“ N 
llej|ls 一 (e 站 De 一 >》 aoi(zi 一 £;) 一 37, 7 = 1,2,.…,n. (1.3.23) 


i=] 
(2) 两 个 变量 e+ 和 ex 的 点 积 等 于 e; 和 ex 的 协 方差 sj4: 


N 
(ej, ej)p = (e}) Dei = 》 ui(zi — Bi) (Ti — Ek) = sj (1.3.24) 
?一 二 
(3) 两 个 变量 e+ 和 ex 夹 角 的 余弦 等 于 ej 和 ex 的 相关 系数 jj: 
记 es 和 ex 的 夹 角 为 Qjk, 则 
(ej ep sik 
llesllp lexllp sskg 天 (1.3.25) 
可 见 , 相关 系数 的 几何 含义 是 数据 变量 两 个 矢量 在 变量 空间 召 中 的 夹 角 余弦 . 
(4) 样本 点 my = (zz Je R" 与 zx 之 间 的 欧 氏 距离 与 中 心 化 前 
没有 变化 : 


cos 人 ij = 


Bz, Th) = zy — Tm) = 办 (openm)， bm=1,2,...,N, (1.3.26) 
j=1 

3. 特征 向 量 数据 的 量 纲 为 一 化 

由 1.3.3 小 节 知 道 , 在 使 用 Minkowski 距离 (包括 Manhattan 距离 和 欧 氏 距离 ) 
时 , 要 注意 样本 输入 变量 各 分 量 的 量 纲 . 在 统计 问题 中 , 变量 各 分 量 的 测度 单位 往 
往 是 不 一 样 的 ， 例 如 , 当 用 年 工资 、 年 龄 和 家 庭 人 口 来 表示 输入 变量 的 3 个 分 量 
时 , 则 每 个 分 量 的 单位 完全 不 同 , 年 工资 用 百 元 和 用 万 元 作为 单位 , 同样 的 年 工资 
对 于 欧 氏 距离 的 作用 有 很 大 差异 . 又 比如 某 个 分 类 问题 需要 用 到 身高 和 头颅 长 度 的 
数据 , 如 果 对 它们 采用 同样 的 长 度 单位 , 身高 的 变异 比较 大 , 对 于 欧 氏 距离 的 贡献 
就 比较 大 . 实际 上 身高 的 变异 比较 大 只 是 这 个 变量 本 身 离散 程度 比较 大 的 反映 , 简 
单 地 用 身高 的 数值 来 确定 欧 氏 距离 而 不 考虑 它 的 离散 性 质 ， 实 际 上 夸大 了 它 的 作 
用 . 这 种 由 于 变量 各 分 量 离 散 程度 的 不 同 导 致 的 变异 并 不 反映 数据 本 身 的 变化 情 
况 . 为 了 消除 这 种 虚假 的 变异 导致 的 不 良 影响 , 就 要 消除 特征 向 量 各 分 量 的 量 纲 效 
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应 , 使 每 一 个 分 量 对 样本 点 间 的 距离 有 同等 的 影响 力 , 这 通常 由 特征 向 量 数据 的 量 


网 为 一 化 处 理 来 达到 
量 纲 为 一 化 是 对 数据 作 变 换 : 
Zi = Ti /83, 2 了 三 本 2 (1.3.27) 
作 此 变换 后 得 到 的 新 变量 为 
e} = (z13/37, za2j/sj °° TNI/SI) ,j=1,2,,n. (1.3.28) 


每 个 e* 的 方差 均等 于 1 且 量 纲 为 一 , 这 时 , 样本 点 zt = (z%, 72 ,… ,7 了 ER" 
与 z+, 之 间 的 欧 氏 距离 平方 为 


(Zi 一 Tmj)? 
dv?, 2 ) = > Tg om) MT rm), lm=1,2,...,N, 
j=1 | 


(1.3.29) 
式 中 , M = diag(1/s?,…,1/ 纺 ) 是 n 维 样本 空间 的 度量 矩阵 . 
4， 特 征 向 量 数据 的 标准 化 
特征 向 量 数据 的 标准 化 是 对 数据 同时 作 中 心 化 和 量 纲 为 一 化 处 理 : 
Ee (1.3.30) 
55 
作 此 变换 后 得 到 的 新 变量 为 
了 (2 一 了 221 一元/ TNF 一 邢 ; 人 
ej; 二 2 5 7=1,2,...,n. (1.3.31) 


每 个 e* 的 均值 为 0, 方差 等 于 1 且 量 纲 为 一 , 这 时 , 样本 点 zy 与 x* 之 间 的 欧 氏 
距离 平方 仍 由 式 (1.3.29) 表示 . 

应 当 指 出 , 是 否 需 要 考虑 样本 集 各 样本 点 有 不 同 的 权重 , 是 否 需 要 对 特征 向 量 
数据 作 预 处 理 以 及 作 怎 样 的 预 处 理 (中 心 化 、 量 网 为 一 化 或 标准 化 ), 取决 于 具体 分 
类 问题 的 要 求 和 所 用 的 分 类 方法 . 如 第 四 章 中 讨论 的 决策 树林 法 就 需要 考虑 样本 
集中 各 样本 点 有 不 同 的 权重 . 


1.4 主 成 分 分 析 


模式 识别 的 分 类 问题 是 根据 待 识别 样本 的 ” 维特 征 向 量 的 观测 值 将 样本 判别 
为 某 个 类 别 , 特征 向 量 的 每 一 维 变量 都 是 随机 变量 , 它 表 征 了 样本 集 总 体 的 一 个 特 
征 . 显然 这 些 特征 的 选择 是 很 重要 的 , 它 在 很 大 程度 上 决定 了 分 类 器 的 设计 及 性 能 . 
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假如 不 同类 别 的 样本 集中 这 些 特 征 的 差别 很 大 , 那 就 比较 容易 设计 出 性 能 较 好 的 分 
类 器 . 

特征 向 量 的 每 一 维 变量 往往 是 直接 观测 值 , 或 观测 值 的 组 合 , 或 某 种 变换 得 到 
的 物理 量 . 如 在 1.2.2 小 节 中 我 们 已 经 列举 了 粒子 物理 实验 数据 分 析 中 的 实验 数据 
的 组 成 . 这 种 实验 数据 的 维 数 w 往往 可 大 到 几 十 或 上 百 . 对 于 特定 的 分 类 问题 , 可 
根据 需要 选择 其 中 的 部 分 观测 值 (或 观测 值 的 组 合 或 某 种 变换 ) 作为 特征 向 量 的 m 
个 变量 . 即便 如 此 , 人 们 也 往往 倾向 于 取 比 较 大 的 ” 值 , 这 与 人 们 的 心理 因素 有 关 ， 
总 认为 特征 量 越 多 , 越 能 包含 尽 可 能 多 的 信息 , 便于 不 同类 样本 的 区 分 . 但 是 过 多 
的 特征 对 于 一 定 的 模式 识别 任务 来 说 可 能 包含 许多 无 用 的 信息 , 因此 必须 选择 那些 
对 所 研究 的 分 类 问题 有 用 的 量 . 其 次 即使 是 有 用 的 信息 , 有 的 还 不 能 反映 样本 的 类 
别 特征 , 往往 要 通过 某 些 变换 才能 得 到 便于 对 样本 分 类 的 物理 量 . 这 些 正 是 我 们 前 
面 提 到 的 特征 提取 的 任务 . 特征 提取 方法 的 基本 思想 就 是 , 利用 原 有 的 特征 构造 一 
批 新 的 特征 , 它们 是 原 特 征 的 函数 或 变换 , 但 它们 更 具 代 表 性 , 更 能 反映 本 质 ; 同时 
新 特征 的 总 数 少 于 原 特征 的 总 数 , 实现 了 特征 空间 的 降 维 , 却 能 保留 原 特 征 的 主要 
信息 . 这 一 类 方法 称 为 降 维 映射 方法 . 


1.4.1 ” 主 成 分 分 析 的 基本 思想 


主 成 分 分 析 是 一 种 常用 的 线性 映射 方法 , 即 用 它 构造 的 每 个 新 特征 都 是 原 有 特 
征 的 线性 函数 . 线性 变换 相当 于 坐标 系 的 平移 和 旋转 变换 . 

我 们 从 直观 的 例子 来 说 明 主 成 分 分 析 的 基本 思想 . 假设 有 一 个 二 维 数据 表 , 数 
据点 的 分 布 如 图 1.3(a) 所 示 , 呈 椭 圆 形 , 重心 为 "椭圆 的 长 轴 和 短 轴 用 wi 和 wa 


(©) 
1.3” 主 成 分 分 析 示 意图 
(a) 二 维 数据 的 降 维 ; (b) 三 维 数据 的 降 维 ; (c) 三 维 数 据 降 维 后 的 二 维 投影 
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表示 . 显然 , 沿 ui 方向 , 数据 的 离 差 最 大 , 所 反映 的 数据 样本 总 体 的 信息 也 最 多 , 该 
方向 称 为 样本 总 体 的 最 大 变异 方向 . 相应 地 , ws 是 样本 总 体 的 次 大 变异 方向 . 如 果 
将 原点 平移 到 g, 并 且 作 旋转 变换 , 便 得 到 一 个 正 交 坐标 系 uigu。. 可 以 看 出 , 若 省 
略 va 轴 , 将 数据 点 在 wi 轴 上 投影 , 就 得 到 一 个 简化 的 一 维 数据 样本 点 集 . 因此 降 
维 处 理 的 核心 思想 , 就 是 省 却 变异 较 小 的 变量 方向 . 

再 如 一 个 三 维 数据 点 集 的 分 布 呈 椭圆 饼 形 , 如 图 1.3(b) 所 示 , 变异 较 大 的 方向 
为 ul 和 wo, 而 ws 方向 的 变异 很 小 ( 离 差 很 小 ) 这 样 车 以 坐标 系 uigu2z 来 分 析 数 
据 , 与 用 原 三 维 空间 的 数据 进行 分 析 , 对 结果 的 差别 就 会 很 小 

推广 到 ” 维 的 一 般 情 形 , 原 数据 样本 点 集 的 特征 向 量 为 x = (zl …. ,Zn 了, 主 
成 分 分 析 实 质 上 是 通过 坐标 系 的 平移 和 旋转 变换 , 使 得 新 坐标 系 {1,… ,Un} 的 原 
点 与 数据 样本 点 集 的 重心 重合 , 各 坐标 轴 j,i = 1,2,:…,n 之 间 相 互 正 交 , 第 一 主 
轴 wi 是 样本 总 体 的 最 大 变异 方向 , 第 二 主轴 4。 是 样本 总 体 的 次 大 变异 方向 , 依 此 
类 推 . 原 数据 样本 点 集 在 第 一 主轴 w 上 的 投影 值 , 构成 新 数据 点 集 的 第 一 个 变量 
九 称 为 第 一 主 成 分 , 依 此 类 推 有 第 ; 主 成 分 yj,; = 1,2,.…,n. 主 成 分 分 析 的 结果 
是 

| E(y)=0, j=1,2,.,n; 人 
V(y) 2 Vy2) > 2 V(yn). 

这 样 就 构成 了 原 数 据点 集 的 新 的 特征 向 量 y= (y1,…,y,)T, 它 的 各 个 变量 yj, Yk; 1 
k 相互 之 间 是 互 不 相关 的 (相关 系数 为 0). 


1.4.2 ” 主 成 分 分 析 算 法 


假设 数据 集 有 NN 个 样本 点 , 原 特 征 向 量 为 z = (xz1,…, zn)T, 而 新 的 特征 向 量 
为 y = (1,…,yn)T, 每 个 新 特征 应 是 原 有 特征 的 线性 组 合 , 即 


从 
Y= (TE)= D> u(rTk BR) j=1,2,...,n. (1.4.2) 
k=1 


式 中 ， Wj = (Uj1, Uy2, jin)!, Wjik 是 常 系数 ; 更 一 (元 1 ;元 n) 工 ， 了 了 1 是 
NN 个 样本 点 第 ; 个 原 特 征 变量 zy 的 均值 (参见 式 (1.3.4)). 写成 矩阵 的 形式 即 为 


Yi Ul Ul2 £7 Uln ZI1 一 了 1 
y2 | | a U2 + Won T2 一 To 
Yn Unl Un2 1:: Unn Tn 一 Tn 


y= U(x—£). (1.4.3) 
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问题 是 怎样 求 得 满足 式 (1.4.1) 的 n xn 矩阵 U 的 所 有 元 素 呢 ? 
假定 训练 样本 集 N 个 样本 点 的 协 方差 矩阵 V(z) 已 经 算出 (计算 公式 见 式 
(1.3.5)~(1.3.7)), 括号 内 的 z 表示 它 是 用 原 特 征 向 量 计算 的 . V(x) 是 一 nxn 实数 
对 称 方 阵 , 其 ”个 特征 值 和 ,和 2,…, 和 An 及 其 对 应 的 特征 向 量 wi, wz,… ,wn 可 由 求 
解 线性 齐 次 方程 组 


得 到 . 由 矩阵 代数 知道 , 实数 对 称 方 阵 的 不 同 特征 值 和 j 对 应 的 特征 向 量 w; 是 相互 
正 交 的 , 即 

{2 jk=b2 (1.4.5) 
1 一 1， j=k=1,2,...,n. 


不 失 一 般 性 , 可 要 求 Xi > A2 > … > Mn. 对 于 确定 的 协 方差 矩阵 V(x), 特征 值 Xi 
及 其 对 应 的 特征 向 量 是 唯一 确定 的 . 
现在 来 证 明 , 这 样 求 得 的 特征 向 量 wa,waz,.…，,wn 和 式 (1.4.2) 或 式 (1.4.3) 求 
得 的 新 的 特征 向 量 y = (yy,…, yn) 均 满 足 式 (1.4.1) 的 要 求 . 利用 随机 变量 的 均 
值 运 算 , 我 们 有 
E(y;)=E > Ujk (Tk 一 可 . 
k=1 


注意 对 随机 变量 zx 的 均值 运算 而 言 wjk 是 常数 , 于 是 
wm —_Eb 阳 oa 
k=1 k=1 


= 2 wkBE(zk) 一 y un E(k) =0. (1.4.6) 
k=1 k=1 


E(y;) =E Ujk (Tk 一 aa 一 五 
k= 二 1 


即 新 的 特征 向 量 y = (wy,… ,yn)T 各 变量 的 均值 为 0. 利用 随机 变量 的 协 方差 矩阵 
运算 , 当 特 征 向 量 y 具有 式 (1.4.3) 的 形式 , 我 们 有 


V(y) = UV (rz)UY. 
即 


Vim(y) 一 >》 >》 uUUkmTk(m)， l,m 一 1,2,...,n. 
7 二 1 k=1 
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注意 到 UT 的 每 一 列 怡 好 是 V(x) 的 特征 向 量 并 利用 条 件 式 (1.4.4) 可 得 


A1 


A 
V(g)UT = UT a 


再 由 特征 向 量 wi,w2,… ,wn 相互 之 间 的 正 交 性 知 


A : 
V(y) = UV(a)UT = UUT 2 i = 
A A 
即 
| Vek(Y) = Mx, k= 1,2,...,n, (1.4.7) 
TV) = 0, kL k,l = 1,2,...,n. 
因此 y 各 变量 之 间 互 不 相关 且 相 互 正 交 , 它们 的 方差 等 于 V(x) 的 特征 值 , 旦 有 
V(t1) 之 V(y2) >…>Y( 加 ). 由 此 我 们 证 明了 式 (1.4.1) 的 正确 性 . 
这 里 顺便 提 一 下 Y(z) 和 V(y) 的 一 个 有 用 的 性 质 . 由 矩阵 代数 知 n 阶 方 阵 
V(z) 的 n 个 特征 值 Nt, Xa，……,》m 之 和 等 于 V(x) 的 迹 , 因此 有 


> Vi(z) = > Vis(y) = a, (1.4.8) 
j=1 j=1 i=1 


即 主 成 分 分 析 并 不 改变 协 方差 矩阵 对 角 元 素 之 和 . 
1.4.3 ” 降 维 处 理 及 信息 损失 


由 上 述 氢 述 可 见 , 如 果 在 最 后 几 个 主轴 上 各 样本 点 的 数值 很 接近 ( 离 差 很 小 )， 
亦 即 新 特征 向 量 y 的 最 后 几 个 分 量 yi,y。_1,… ,ypt1 的 方差 和 ,和 _1,… ,和 Ap+1 的 
数值 很 小 , 它们 对 于 样本 点 的 分 类 的 作用 就 很 小 , 略 去 它们 对 于 样本 点 的 正确 分 类 
影响 就 很 小 , 因此 就 可 以 用 p 维 向 量 = (4,… ,yp)T(p < n) 来 设计 分 类 器 实现 
样本 的 分 类 , 这 就 是 主 成 分 分 析 的 降 维 处 理 . 降 维 处 理 表 定 要 丢失 样本 点 集 的 信息 ,， 
我 们 的 目标 当然 是 应 当 采 用 信息 损失 尽 可 能 少 的 降 维 方式 ， 这 就 要 求 能 对 降 维 处 
理 导致 的 信息 损失 作 定 量 的 估计 . 

我 们 可 以 定义 y 的 第 7 个 主 成 分 y; 的 方差 贡献 率 为 


rj 一 » /> 和 AR， (1.4.9) 
k=1 
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于 是 y 的 n 个 成 分 的 累计 方差 率 为 1. 由 式 (1.4.8) 知 z 的 ”个 成 分 的 累计 方差 
率 亦 为 1. 当前 p 个 主 成 分 的 方差 贡献 率 足够 接近 1, 就 可 以 只 取 前 p 个 主 成 分 作 
为 新 特征 . 这 时 , 降 维 向 量 5 的 累计 方差 率 为 


六 nn 
ry = 2 5/ > Aj. (1.4.10) 
j=1 了 一 1 


因为 数据 信息 主要 反映 在 变量 的 方差 上 , 方差 越 大 , 数据 包含 的 信息 就 越 多 . 因此 ， 
1 一 rg 可 以 作为 降 维 处 理 信 息 损 失 的 一 种 度量 . 

由 于 主 成 分 分 析 可 以 将 原来 各 个 变量 相互 关联 的 特征 向 量 z = (zl1……,zn)T 
变换 为 各 个 变量 互 不 关联 的 新 特征 向 量 y = (y1,…, yn) 人 然后 再 进一步 降 维 为 特 
征 问 量 多 = (yy,… ,yp)T(p < n) 而 不 带 来 多 少 信息 损失 , 这 些 性 质 使 得 它 应 用 于 多 
级 分 类 器 如 决策 树 方法 , 特别 是 超 长 方 体 分 割 法 , 能 够 有 效 地 提高 对 信号 样本 的 识 
别 效率 , 减 小 计算 量 . 这 一 点 会 在 4.1 节 的 讨论 中 加 以 叙述 . 

主 成 分 分 析 带 来 的 问题 是 主 成 分 的 物理 含义 的 解释 . 原 特 征 向 量 z = (zx1,…， 
zn)” 的 各 个 变量 zj(i = 1,2,.…,n) 每 一 个 都 具有 明确 的 物理 意义 . 对 它们 作 变 换 
后 得 到 的 新 综合 变量 w% (1 = 1,2,…,n), 它们 的 物理 意义 是 什么 呢 ? 可 以 证 明 , 如 
果 z = (21……zn)7 是 中 心 化 的 , 那么 z 与 变换 后 的 y 之 间 的 相关 系数 为 


rT(Yj, Tk) = V Aujk. (1.4.11) 


由 式 (1.4.2) 知 , 对 于 中 心 化 的 x = (x1,…,zn)T, 有 


yj = Wj = Yunak j=1,2,:..,n. (1.4.12) 
k=1 
可 见 yy 是 n 个 变量 zx = 1,2,…,n) 的 线性 组 合 , 组 合 系数 正比 于 yj; 与 zk 之 
间 的 相关 系数 r(y;, zx). 因此 人 们 可 以 通过 观察 组 合 系数 wj 的 符号 和 大 小 , 对 y; 
的 物理 含义 作出 判断 . 正 的 wjk 说 明 yj 与 zk 之 间 正 相关 , 大 的 wj 值 说 明 y; 与 
zk 之 间 关 联 强 , 反之 则 关联 弱 . 
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模式 识别 的 分 类 问题 是 根据 待 识别 样本 的 特征 向 量 的 观测 值 将 样本 归 之 为 某 
个 类 别 . 统计 决策 理论 是 处 理 模式 分 类 的 基本 统计 理论 之 一 , 它 对 模式 分 析 和 分 类 
器 的 设计 有 指导 意义 . 贝 叶 斯 (Bayes) 决策 理论 是 统计 模式 识别 中 的 一 个 基本 方法 ， 
为 此 我 们 首先 对 于 贝 叶 斯 决策 和 利用 它 进行 模式 识别 的 一 些 问 题 作 简要 的 介绍 . 

利用 贝 叶 斯 决策 方法 进行 样本 分 类 时 有 两 个 前 提 条 件 : 

(1) 要 决策 分 类 的 类 别 数 是 一 定 的 ; 

(2) 各 类 别 的 总 体 概率 分 布 是 已 知 的 . 

假定 要 决策 分 类 的 类 别 数 用 c 表示 , 各 类 别 的 状态 用 wi 表示, i = 1,2,…,c. 
假定 要 识别 的 物理 样本 有 n 个 特征 观测 量 x = (z1, x2,…, zn)T, 即 样本 为 n 维特 
征 向 量 , 由 于 每 个 特征 观测 量 都 是 随机 变量 , 所 以 x 是 ” 维 随机 变量 . 它 的 每 一 个 
观测 值 可 以 看 成 是 n 维特 征 空间 中 的 一 个 点 . 前 提 条 件 (1) 要求 c 为 已 知 常数 , 条 
件 (2) 要 求 对 应 于 各 类 别 ww 出 现 的 先 验 概率 (wi) 是 已 知 的 , 并 且 当 样本 z e wi 
时 的 条 件 概率 密度 p(z|wi) 也 是 已 知 的 . 

于 是 贝 叶 斯 决策 分 类 要 解决 的 问题 归结 为 , 对 于 一 个 特定 的 zx 样本 , 在 满足 以 
上 两 个 前 提 条 件 的 情况 下 , 怎样 对 其 归 类 . 


2.1 基于 最 小 错误 率 的 贝 叶 斯 决策 


2.1.1 ”决策 规则 


模式 分 类 的 重要 要 求 之 一 是 尽量 降低 对 样本 错误 分 类 的 比率 . 利用 贝 叶 斯 公 
式 , 能 得 到 错 分 率 最 小 的 分 类 规则 , 称 为 基于 最 小 错误 率 的 贝 叶 斯 决策 . 当先 验 概 
率 x(wi) 和 随机 变量 = e wi 的 条 件 概率 密度 p(z|wi) 均 为 已 知 时, 利用 贝 叶 斯 公式 
可 求 得 所 谓 的 后 验 概率 g(wi|z): 


p(wlwi)r (wi) 


t= 1,2,...,cC. (2.1.1) 
>》 p(zlwz)r(own) 
j=1 


qtwilz) = 


后 验 概率 综合 了 先 验 概率 x(w;) 和 样本 测量 值 xz 对 于 样本 属于 各 类 别 的 状态 的 
概率 大 小 的 新 知识 , 也 就 是 综合 了 随机 试验 前 的 先 验 知 识 (wi) 和 随机 试验 的 知识 
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(随机 变量 xz 的 一 次 随机 测量 值 ), 贝 叶 斯 统计 认为 后 验 概率 g(wi|z) 是 统计 决策 的 
基础 . 
基于 最 小 错误 率 的 贝 叶 斯 决策 规则 为 


TD € wi 当 d(wilz) = ,Dax (wilr) 时 . (2.1.2) 
还 可 以 得 到 基于 最 小 错误 率 的 贝 叶 斯 决策 规则 的 等 价 形式 : 


TX € wi, 当 p(zlwi)r(wi) = ax P(ew) 时 ， 《2.1.3) 


zew， 当 !(ze)= Do > Te , =—1,...,c 且 ;i 时 ， (2.1.4) 


zew， 当 Inp(z|wi) + na(wi)>Inp(zlw;)+t+ina(w;), j=1,:.….,c HB j;#¥i 时 . 


(2.1.5) 
对 于 最 简单 的 c = 2 类 问题 , 则 有 
T E wi, 当 q(wilz) = mex gq(w;|z) 时 ， (2.1.6) 
以 及 等 价 形式 : 
DZ E wii 当 p(z|wi)r(wi) = Tax p(Tlw) Te) 时 . (2.1.7) 
定义 似 然 比 (oe) 
_ pzlwl 
‘0) 3 Golo) 
则 有 
| 了 E wwli 当 !(z) > rr(waz)/r(wl) 时 ， (2.1.8) 
ZE wy, 当 1(z) < 7(w2)/T(wi) 时 ， 人 
以 及 
T E 1， 当 h(x)<In | 时 ， 
(2.1.9) 
TL € wo, 当 j(z) > lm Ez] 时 . 
式 中 h(z)=—In[l(z)] = 一 mnp(zlw) +Inp(zjws). 


式 中 的 r(wz)/r(wi) 称 为 似 然 比 冰 值 . 
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2.1.2 ”错误 率 


现在 来 讨论 错误 率 问 题 . 我 们 从 比较 简单 的 二 类 问题 出 发 , 并 假定 n=1 即 特 
征 空间 为 一 维 . 一 个 二 类 问题 的 后 验 概率 假定 如 图 2.1 所 示 . 由 式 (2.1.6) 知 , 若 
a(wi|z) > gq(w2|z), 则 样本 zx 决策 为 wi 类 ; 但 如 图 2.1 可 知 , 这 时 仍 有 概率 g(wzlz) 
样本 x 属于 wz 类 . 因此 样本 = 决策 为 wl 类 的 条 件 错误 概率 为 4d(walz). 类 似 地 ， 
样本 zx 决策 为 wa 类 的 条 件 错误 概率 为 q(wi|lz). 于 是 样本 = 决策 的 条 件 错误 概率 
e(e|z) 可 表示 为 


1.0 qls) 
0.8 
0.6 
0.4 
0.2 全 
0.0 2 
图 2.1 后 验 概率 
La 人 au 四， lale) > qonlz) 时 
9 | aoalz)，。 当 glenlg) > qlwzlz) 时 bo 
上 式 也 可 写成 其 等 价 的 形式 
ele|z) = min [g(wilz),a(wazlz)]. (2.1.11) 
平均 错误 率 定义 为 
ele) = 三 el(e, T)dz = Ee e(elz)p(z)dz. (2.1.12) 


式 中 积分 在 n 维特 征 空间 中 进行 , p(z) 为 随机 变量 x 的 边沿 概率 . 对 于 。 类 问题 ， 
p(z) 的 表 式 为 


p(z) = > p(wlwi)r(wi). (2.1.13) 
《一半 


令 t 为 两 类 样本 的 分 界面 , 当 特 征 向 量 为 一 维 时 ,上 是 x 轴 上 的 一 个 点 , 将 x 轴 分 
为 两 个 区 域 Rl1 E (一 co, 如 和 Rs € (t, 00), 当 样 本 me < Ri(R2) 时 判 为 wi {iw2) 类 . 这 
样 平均 错误 率 为 


t OO 
c(e) = / g(ualzjp(lzjdz + / gq(wilw)p(w) ds 
+t [| 
=-/ pale)r(on)dz + 上 p(Tlwi) nr(wi) dg. 
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由 于 r(wi),r(w2) 是 已 知 常量 , 可 以 提出 积分 号 外 , 上 式 可 进一步 写 为 
ele) = A(w2) 人 p(Tlwa)ds + x(w1) 三 D(Z|wl)dz 
-人 plzloajdz+rCa) 人 p(w|wi)}dz 
三 T(wz)El2(e) + rT(w1i)e21(e). (2.1.14) 
式 中 
cafe) = / plzlwndz (2.1.15) 
R2 


表示 wi 类 样本 z 落 在 Ra e (t,o0) 区 域 被 决策 为 wa 类 时 的 错误 概率 ,类 似 地 ， 

e12(€) = / p(Z|wz)dz 表示 wa 类 样本 z 落 在 RI < (一 o0,t) 区 域 被 决策 为 wl 类 时 
R1 

的 错误 概率 . 图 2.2 中 的 网 格 线 和 斜 线 区 域 的 面积 即 为 x(wi)ezi(e) 和 7(wo)ei2(e). 

以 上 讨论 不 难 推广 到 n 维特 征 空间 的 情形 . 


Bo 
p(Tlen) (ew2) 


(wa)elat €) A TW)en(e) 


图 2.2 错误 率 


从 式 (2.1.10) 知道 , 决策 规则 式 (2.1.2), (2.1.6) 实际 上 是 使 样本 z 决策 的 条 件 
错误 概率 g(elz) 取 小 者 , 这 就 使 式 (2.1.12) 定义 的 平均 错误 率 s(e) 达到 最 小 . 这 就 
证 明了 基于 最 小 错误 率 的 贝 叶 斯 决策 规则 确实 使 平均 错误 率 ce(e) 达到 最 小 . 

多 类 决策 问题 中 , 特征 空间 被 分 成 Ri, R2,…,R。 个 区 域 , 可 能 错 分 的 情况 很 
多 , 平均 错误 概率 s(e) 将 由 c(e 一 1) 项 组 成 , 即 


Ee(e) = nw1) [er € Rolwi) +e(r € Ralwi) + +e (rT € Relwi)) 


+7r(w2) le (zw € Rilw2) +e (x € Rslw2) + .+e (rw € Relw2)| 6 行 


Twe) le (z €E Rilwe) + er € Rolwe) + .+e (x € Re_1lwe)) 


一 -yx wi) [el( TE Rj|lwi)] = 一 yx ws )eii(e). (2.1.16) 


i=1 区 1 1=1 和 1 
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式 中 ， e (全 扎 Rilw:i) 一 Eji(e) 是 Li 类 样本 但 其 化 落 在 R; 区 域 因而 被 决策 为 Ww 类 
的 错误 概率 . 由 上 式 可 知 直 接 求 e(e) 的 计算 量 很 大 . 我 们 可 以 计算 平均 的 正确 分 类 
概率 e(c), 则 平均 错误 分 类 概率 <(e) 为 


ele) = 1— el(o), (2.1.17) 
因为 e (zx e Rjlw;) 是 wj 类 样本 但 其 xz 值 落 在 R; 区 域 因而 被 正确 决策 为 wj 类 的 
概率 , 所 以 对 于 所 有 c 类 样本 总 的 正确 分 类 概率 的 期 望 值 <(c) 由 下 式 求 得 : 


ec) = 》 mlwjje(ze Rjlw;) = DT(w)ey 
了 一 1 了 一 1 


和 2 上 p(z|wj)r (wi)dz. (2.1.18) 
式 中 求 和 号 内 只 有 c 项 , 比 直 接 求 e(e) 容易 得 多 . 
2.1.3 ”分 类 器 设计 
基于 以 上 最 小 错误 率 的 贝 叶 斯 决策 的 分 析 , 可 以 进行 相应 的 分 类 器 设计 . 
1. c 类 情形 


对 于 e 类 分 类 问题 , 按照 决策 规则 可 以 把 ”维特 征 空间 分 成 c 个 决策 域 , 定 
义 一 组 判别 函数 gi(z),i = 1,2,…,c, 决策 规则 为 : 若 gi(z) > gj(z2) 对 一 切 7 1 
成 立 , 则 将 = 归 为 wi 类 . 按照 式 (2.1.2)~(2.1.5) 的 决策 规则 , 显然 这 里 判别 函数 
gi(zZ) 可 定义 为 


gi(£) = q(wilz) 
gi(T) = p(wlwi)n (wi) (2.1.19) 
gi(z) = Inp(zlwi) + lnn(w:;) 
各 决策 域 R; 被 决策 面 所 分 割 |， 这 些 决策 面 是 特征 空间 中 的 超 曲面 , 相 邻 的 两 
个 决策 域 在 决策 面 上 其 判别 函数 值 是 相等 的 , 即 如 Ri 和 R; 相 邻 , 则 分 割 它 们 的 决 
策 面 方程 为 
ge) = g;(z). (2.1.20) 
根据 以 上 原则 ， 可 以 编写 基于 贝 时 斯 决策 的 分 类 器 的 计算 机 软件 . 它 的 功能 是 
先 计算 出 c 个 判别 函数 g;(z)， 从 中 选 出 对 应 于 判别 函数 为 最 大 值 的 类 作为 决策 结 
采 . 图 2.3 是 这 种 分 类 器 的 示意 图 . 
2. 二 类 情形 
对 于 二 类 问题 , 只 需要 定义 一 个 判别 函数 9(z)， 


9(z) = 91(Z) 一 92(z) (2.1.21) 
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最 大 值 选择 器 。 决策 


图 2.3 多 类 分 类 器 示意 图 


决策 规则 为 : 车 g(z) > 0, 则 将 zx 归 为 w 类 ; 若 g(z) < 0, 则 将 x 归 为 ws 类 . 按 
照 式 (2.1.6)~(2.1.9) 的 决策 规则 , 显然 这 里 判别 函数 9(z) 可 定义 为 


g(2) = q(wilz) — aq(w2lT) 


g(z) = pz) rw1) — plzlw2) rw2) (2.1.22) 
_ 1 Pz) 1 TW) 
g(r) = nl 1 元 


决策 域 Rl 和 Rs 被 决策 面 所 分 割 , 决策 面 方程 为 
9g(z) = 0. (2.1.23) 


一 般 地 说 , x 为 一 维 时 , 决策 面 为 一 分 界 点 ; z 为 二 维 时 , 决策 面 为 一 分 界 曲线 ; zx 
为 三 维 时 , 决策 面 为 一 分 界 曲 面 ; x 为 c 维 (c > 3) 时 , 决策 面 为 一 分 界 超 曲 面 . 

二 类 分 类 器 先 计 算出 判别 函数 g(z), 根据 其 正 负 对 z 进行 分 类 . 图 2.4 是 这 种 
分 类 器 的 示意 图 . 


判别 计算 阔 值 单元 


图 2.4 二 类 分 类 器 示意 图 


2.2 Neyman-Pearson 决策 


在 两 类 问题 的 决策 中 , 存在 两 种 错 判 的 可 能 性 : 样本 属于 wi 类 但 被 分 类 器 决 
策 为 wa 类 , 以 及 样本 属于 ws 类 但 被 分 类 器 决策 为 w 类 , 这 两 种 错 判 的 概率 分 别 
为 (wi)e21(e) 和 Tr(w2)E12(e). 实际 问题 中 ， 先 验 概率 (iw1) 和 T(w2) 往往 是 确定 的 ， 
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所 以 E21(e) 和 El2(elj 一 般 称 为 两 类 错误 率 . 最 小 错误 率 贝 叶 斯 决策 是 使 AT(wi)e21(e) 
和 r(wa)slz(e) 之 和 达到 最 小 (参见 式 (2.1.14)): 


ele) = 7(w2)e12(€) + Ar(wi)e21(e) 


但 在 实际 问题 中 , 有 了 时 要 求 其 中 的 一 类 错误 率 不 得 大 于 某 个 给 定常 数 而 使 另 一 类 错 
误 率 尽 可 能 地 小 . 如 在 对 病人 进行 癌 细 胞 检查 时 , 显然 , 把 癌 细 胞 误 判 为 正常 细胞 
会 导致 严重 的 后 果 , 因此 要 求 这 种 误 判 率 很 小 , 即 要 求 elz(e) = eo, so 为 一 很 小 的 
常数 , 在 这 种 条 件 下 再 要 求 sz1(e) 尽 可 能 地 小 . 

这 类 决策 问题 是 在 El2(e) 一 E0 条 件 下 求 ea (e) 极 小 值 的 约束 极 值 问 题 ， 可 以 
用 拉 格 朗 日 乘 子 法 求解 . 引入 拉 格 朗 日 乘 子 和 定义 量 > 为 


Y= é21(e) + A(ei2(e) 一 co) (2.2.1) 


”这 样 , 使 7 达到 极 小 的 》 值 * 对 应 于 问题 的 解 
由 式 (2.1.14) 可 知 
E21(e) = / p(Tlwi)dr (2.2.2) 
Ro 


El2(e) = 人 p(xz|w2)dy, (2.2.3) 


其 中 , Ri 是 类 别 wi 的 决策 域 ， Rs 是 类 别 wo 的 决策 域 ; RR = Ri + Rs 为 整个 特征 
空间 . 决策 是 将 整个 特征 空间 分 割 成 互 不 相交 的 两 个 区 域 Rl 和 Rs. 两 个 区 域 的 
分 界 点 ( 面 ) 令 为 t. 若 待 分 类 样本 zx 落 入 区 域 Ri, 则 样本 归 类 为 wi, 反之 样本 归 
类 为 wa. 根据 条 件 概率 密度 的 性 质 , 有 


/ p(zlw)dz =1-— / P(z|wl)jdz (2.2.4) 
Rt2 R1 
将 式 (2.2.2) 和 式 (2.2.3) 代入 式 (2.2.1), 并 考虑 到 式 (2.2.4) 可 得 

Y= 上 p(zlwi)dz 二 入 |/ p(x|w2)dw 一 oo 


= (Xe0) + 人 pplelw) -zelwlaz (2.2.5) 


将 上 式 分 别 对 分 界 点 ( 面 ) t 和 参数 和 求 导 , 并 令 其 等 于 零 即 2! 二 0 及 5 = 


则 可 得 % 
A* pltlwi) 
p(tlw2) 


/ p(wlw2)dz = co (2.2.7) 
-五 1 


(2.2.6) 


. 08 . 第 二 章 。 贝 叶 斯 决策 


可 见 最 佳 和 值 X* 等 于 分 界 点 处 样本 xz € wi 时 的 条 件 概率 密度 p(z|wi) 和 z € wo 
时 的 条 件 概率 密度 p(z|w2) 的 比值 . 满足 式 (2.2.6) 的 最 佳 和 值 和 满足 式 (2.2.7) 的 
边界 面 使 y 达到 极 小 . 这 时 决策 规则 可 写 为 


p(z|w1) X*, 则 jew 

P(xlw2) (2.2.8) 
Dz) wew. 

p(zlw2) 


这 种 限定 一 类 错误 率 el2(e) = eo 为 常数 而 使 另 一 类 错误 率 szl 达到 极 小 的 决策 规 
则 称 为 Neyman-Pearson 决策 规则 . 
回顾 最 小 错误 率 贝 叶 斯 决策 规则 式 (2.1.8) 


p(wlw1) ~ riw2) 
p(xlw2) Tol) 
p(Tlw1) A(w2) 
p(xlw2) A(w1) : 
可 见 Neyman-Pearson 决策 规则 和 最 小 错误 率 贝 叶 斯 决策 规则 都 是 以 似 然 比 为 基础 
的 , 所 不 同 的 是 最 小 错误 率 贝 叶 斯 决策 的 阀 值 是 先 验 概率 之 比 , 而 Neyman-Pearson 
决策 的 阔 值 是 拉 格 朗 日 乘 子 X*, 即 两 类 样本 在 分 界 点 处 的 条 件 概 率 密度 之 比 . 


2.3” 正 态 分 布 时 的 贝 叶 斯 决策 


利用 贝 叶 斯 决策 方法 进行 样本 分 类 的 前 提 条 件 之 一 是 : 各 类 别 的 条 件 概 率 密 
度 p(z|wi) 为 已 知 . 用 多 元 正 态 分 布 作 为 各 类 别 的 条 件 概率 密度 是 常用 的 选择 之 一 ， 
原因 是 对 于 许多 实际 的 数据 样本 集 , 正 态 性 假设 通常 是 一 种 较 合 理 的 近似 . 当然 如 
果 要 用 多 元 正 态 分 布 作为 类 条 件 概 率 密度 来 求 得 最 终 的 分 类 结果 , 必须 注意 其 物理 
上 的 合理 性 , 即 应 当先 进行 假设 检验 证 明 该 假设 确实 可 用 . 否则 基于 正 态 性 假设 求 
得 的 分 类 结果 只 能 视 为 某 种 近似 . 

多 元 正 态 分 布 的 概率 密度 函数 为 


则 TE 1 


则 z € wy. 


p(s) = NnV) = pe Ve D} ea 


式 中 , z 为 n 维特 征 向 量 ; 1 是 其 n 维 均值 向 量 ; V 是 nxn 阶 协 方差 矩阵 ; V1 
是 其 道 矩 阵 ; |V| 是 协 方差 矩阵 的 行列 式 . 
假定 各 类 别 的 条 件 概 率 密度 为 多 元 正 态 分 布 , 即 


pzlwi) ~ N(pi, Vi), i=1,...,cC (2.3.2) 
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代入 基于 最 小 错误 率 的 贝 叶 斯 决策 判别 函数 式 (2.1.19) 中 的 对 数 形式 , 立即 得 到 
_gi(z) = -5 — pi) Vi (zz 一 Ai) 一 了 In 2r 一 ;In|Vi + nn(w) 
其 中 右边 第 二 项 7 In2n 与 类 别 i 无关 , 因而 可 以 略 去 , 从 而 判别 函数 可 写 为 


gi(T) = -5 — pp) V(r— hi) — 5 In|Vi| + In x(w;) (2.3.3) 
决策 面 方 程 为 
gi(2) — gi(z2) = 0. (2.3.4) 


决策 规则 为 : 若 gi(z) - gj(z) > 0 对 一 切 ;了 i 成立, 则 将 z 归 为 w 类 . 
为 了 搞 清楚 决策 面 的 形状 , 将 式 (2.3.3) 改写 为 


gi(z) = 2 Wir + wi + wio (2.3.5) 
其 中 
Wi 二 -53V !， (nxn 维 答 阵 ) : 
一 TV (mn 维 列 向 量 ) (2.3.6) 
ee -su Vp = ;in| Pi 
于 是 决策 面 方程 式 (2.3.4) 可 写成 


zr (WW: 二 Wi)z 十 (wi = 一 wi) 十 (wio = wj;0) 二 0 (2.3.7) 


式 (2.3.7) 的 决策 面 方程 为 x 的 二 次 型 , 对 应 的 决策 面 为 超 二 次 曲面 , 随 着 VV, ji， 
7(wi) 的 不 同 而 呈现 为 某 种 超 二 次 曲面 , 即 超 椭 球 面 、 超 球面 、 超 抛物 面 、 趣 双 曲 面 
或 超 平面 . 

2.5 显示 了 两 类 样本 的 条 件 概率 密度 plzlwi),i = 1,2 服从 二 维 正 态 分 布 情 
形 下 的 决策 面 的 不 同形 式 . 在 (a)~(e) 五 种 形式 中 , 样本 的 变量 zi( 横 坐标 值 ) 和 
z2( 纵 坐标 值 ) 之 间 是 相互 独立 的 , 所 以 协 方差 矩阵 为 对 角 阵 . 进一步 假定 两 类 的 先 
验 概率 相等 即 r(wl) = "(wz), 那么 决策 面 的 形状 完全 由 由, ji， = 1,2 决定 . 图 
2.5 中 以 标号 1,2 的 等 概率 密度 轮廓 线 来 表征 相应 类 别 样本 分 布 的 标准 离 差 . 五 种 
决策 面 的 形状 如 下 : 

(a) azli(wl) = ox2(W1), Ozr1(W2) = oz2(wa)，a(wl) > ol(w2). 次 策 面 为 圆 . 

(bj czli(wl) < or2(W1), Gz1(W2) < oz2(W2), Typ1/z2(W1) > or1/z2(W2). 决策 面 为 
椭圆 . 

(c) oz1(w1) = gzi(Ww2) = Gz2(W2), Oz2(W1) > oz2(wW2). 决策 面 为 抛物 线 . 
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(qd) Gai(w1) = = oz(woj，oza(wl) = 0z1(w2). 决策 面 为 双 曲 线 . 
(e) 标准 离 差 情况 同 (d), 但 yi,p2 位 置 有 特定 的 对 称 性 . 决策 面 为 两 条 百 线 


pA 


(b) 椭圆 (e) 抛物 线 


ER 


(d) 双 曲 线 (e) 直线 
图 2.5 ”两 类 样本 的 条 件 概 率 密 度 服 从 二 维 正 态 分 布 情形 下 的 决策 面 


2.4 分 类 器 的 效率 和 错误 率 


本 小 节 关 于 效率 和 错误 率 的 讨论 不 仅 对 贝 叶 斯 分 类 器 , 而 且 对 其 他 分 类 器 都 适 
用 . 


2.4.1 ”分 类 器 的 效率 、 错 误 率 和 判 选 率 矩 阵 


假定 有 c 个 模式 类 , 用 wi,… ,we 表示 . 我 们 用 某 种 方法 设计 了 一 个 分 类 器 对 
任意 事例 归 为 这 c 个 模式 类 之 一 一- 般 而 言 一 个 分 类 器 的 性 能 不 大 可 能 是 完全 理 
想 的 , 即 既 可 能 把 w; 类 的 样本 正确 地 判别 为 w 类 , 也 可 能 错误 地 判别 为 wj(7 天 汪 
类 . 为 此 我 们 可 定义 分 类 器 将 一 个 w; 类 的 样本 判别 为 一 个 w; 类 的 判 选 率 为 si 
即 ei; 的 第 一 个 下 标 (i) 标记 分 类 器 对 样本 的 判定 类 别 , 第 二 个 下 标 (7) 标记 样本 
的 真实 类 别 . 于 是 对 于 c 个 模式 类 的 情形 , 就 得 到 一 个 c x e 的 判 选 率 (或 效率 ) 矩 
阵 <: 

E11 €12 *'' €l1c 


E21 E22 '‘'*' €E2ec 
E 一 . . (2.4.1) 


Ei 


Ecl Ec2 “** Ecc 


判 选 率 矩 阵 e 的 对 角 元 素 si; 表示 分 类 器 把 wi(i = 1,2,…,c) 类 的 样本 正确 地 判 
别 为 w; 类 的 概率 , 也 可 称 为 分 类 器 正确 分 类 的 效率 ; 而 非 对 角 元 素 si 表示 分 类 器 
把 wj(j = 1,2,…,c) 类 的 样本 错误 地 判别 为 其 他 类 别 wi(i 关 7) 的 概率 , 亦 即 错 判 
率 或 错误 率 . 可 见 判 选 率 矩阵 s 表征 了 分 类 器 的 优 劣 , 因此 判 选 率 矩 阵 e 是 分 类 器 
的 一 个 非常 重要 的 参数 . 一 个 ; 类 样本 被 分 类 器 判 为 i 类 样本 (i = 1,2,…,c) 的 
概率 之 和 应 当 等 于 1, 即 有 


Cc 
》 ey=1l, j=1,2,.,c (2.4.2) 
4 一 1 


应 当 指 出 , 一 般 情况 下 se 是 个 非 对 称 和 矩阵 ci; 头 sj 位 天 力 ， 即 把 ww;(i = 1,2,:…,c) 
类 的 样本 错 判 为 类 别 wj(7 关 i) 的 概率 不 等 于 把 w; 类 的 样本 错 判 为 类 别 ww 的 概 
率 . 一 个 理想 的 分 类 器 的 效率 矩阵 e 其 对 角 元 素 皆 为 1, 而 非 对 角 元 素 丝 为 0. 对 于 
大 多 数 的 实际 情况 , 对 于 一 个 好 的 分 类 器 的 要 求 应 当 是 对 角 元 素 尽 可 能 接近 1, 而 
非 对 角 元 素 接近 0. 

根据 最 小 错误 率 贝 叶 斯 决策 规则 下 关于 分 类 器 正确 率 和 错误 率 的 讨论 , 将 公式 
(2.1.18) 与 上 述 表述 对 照 , 可 知 最 小 错误 率 贝 叶 斯 决策 分 类 器 的 效率 和 错误 率 为 


so=》y` rwjjsr=》、 上 pzloj)r(wj)dz (2.4.3) 
j=1 j=1 已; 


e(e)= 1— e(c) (2.4.4) 
把 wj(i = 1,2,…,c) 类 的 样本 错误 地 判别 为 其 他 类 别 wi(i 去 7) 的 错误 率 为 


es=elweRlo) = | Pleo)de, ix， (245) 
把 所 有 不 同 于 i 类 的 样本 错误 地 判别 为 w 类 的 错误 率 为 


Ei 二 &ij 一 - T(wji) | plzlw;) dz. (2.4.6) 
,2 ,让 | / 六 
由 此 可 以 看 到 当 数 据 样本 z 为 多 维 向 量 时 , 效率 和 错误 率 要 进行 多 重 积 分 计算 ; 同 
时 , 决策 域 Ri, R2,…, Re 的 确定 也 是 十 分 困难 的 . 所 以 , 虽然 效率 和 错误 率 的 概念 
比较 简单 , 但 在 多 维 情况 下 类 条 件 密度 的 解析 表达 式 比 较 复杂 时 , 它们 的 计算 是 相 
当 困 难 的 . 
在 许多 实际 问题 中 , 贝 叶 斯 决策 的 重要 前 提 (要 求 各 类 别 w; 出 现 的 先 验 概率 
(wi) 和 样本 z e wi 时 的 条 件 概 率 密度 p(z|wi) 都 为 已 知 ) 往往 不 能 满足 , 因而 效 
率 和 矩阵 的 解析 求解 成 为 不 可 能 . 
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第 一 章 里 我 们 多 次 提 到 , 许多 实际 问题 中 涉及 的 往往 是 两 类 样本 的 分 类 问题 ， 
即 分 为 信号 样本 和 本 底 样 本 . 这 时 判 选 率 矩阵 < 为 ; 


c= ( E11l £12 | __ ( ES8S ESB | (2.4.7) 
E21] £22 EBS EBB 
其 中 , S 标记 信号 ; B 标记 本 底 ; esp 表示 本 底 样 本 被 分 类 器 判 为 信号 的 判 选 率 . 如 


者 有 一 样本 集 , 其 中 模式 类 ws,ws 的 样本 数 分 别 为 ns, ns, 被 判 选 率 和 矩阵 为 e 的 分 
类 器 判别 为 模式 类 ws, we 的 样本 数 为 jis,iip. 则 有 


i 二 ( ”8 )-=- ( ES8 ESB | ns ) 四 Essns 十 EsBNB ) (2.4.8) 
nB EBS EBB nB EBSNS + EBBNB 

实际 问题 中 往往 更 关心 的 是 被 分 类 器 判 为 信号 的 样本 数 jis， 希望 其 中 包含 的 错 判 

样本 数 espnp 尽 可 能 地 少 . 对 于 待 分 类 的 样本 集 , 本 底 样本 数 np 是 确定 的 , 因此 


只 能 要 求 esp 尽 可 能 地 小 . 量 > 定义 为 分 类 器 对 信号 样本 的 判 选 效率 和 本 底 样 本 
被 错 判 为 信号 样本 的 错 分 概率 之 比 : 


r 一 “SS (2.4.9) 
ESB 


称 为 分 类 器 的 信号 /本 底 分 辨 能 力 (separation power). 分 辨 能 力 越 大 , 分 类 器 判 为 
信和 号 的 样本 数 中 本 底 的 污染 越 小 . 分 辩 能力 是 分 类 器 的 一 个 非常 重要 的 性 能 参数 . 


2.4.2 ”错误 率 的 上 界 

从 前 面 的 讨论 可 知 , 错误 率 的 理论 计算 一 般 是 相当 困难 的 . 当 不 能 从 理论 上 直 
接 计算 出 错误 率 时 , 往往 代 之 以 寻找 错误 率 的 上 界 . 

所 谓 的 Chernof 上 界 被 称 为 最 小 上 界 , 但 它 的 计算 比较 复杂 , 这 里 不 加 讨论 . 
有 兴趣 的 读者 可 参阅 参考 文献 [5] 中 相关 部 分 的 讨论 . 利用 Bhattacharyya 系数 确 
定 错误 率 的 上 界 相对 地 比较 简单 . 

由 2.1 节 的 讨论 已 知 , 对 于 两 类 问题 , 样本 x 决策 的 条 件 错误 率 s(elz) 可 表示 
为 

sfelzZ) = min [q(wi|z),q(wa| 人 )] (2.4.10) 


利用 几何 均值 不 等 式 ( 即 a >b > 0 时 , Vab > 0b) 可 得 
elelz) < Vd(wllz)d(waz|z) (2.4.11) 
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对 条 件 错误 率 求 期 望 信 就 得 到 销 误 率 , 故 有 
A / el ad 
< /Cjolojda 
= Vr yrtes) / GOJ Gojplc)dz 
= Vr ow { ~ [1m f Vo veals)ae| | 
定义 Bhattacharyya 系数 .万 为 


n=—In | Votho) plaloajp(e)de (2.4.12) 
则 错误 率 可 表示 为 
El(e) < VT(wl)jTr(wz) .exp(—Jp) (2.4.13) 


上 式 右 边 即 为 利用 Bhattacharyya 系数 确定 错误 率 的 上 界 . 计算 该 上 界 需要 用 到 先 
验 概率 x(w;) 和 类 条 件 概率 密度 p(zlw;) 的 知识 . 

如 有 果 两 类 的 类 条 件 概率 密度 都 服从 正 态 分 布 , 即 p(z|wi) ~ N (jp, Vi)，i = 1,2， 
则 可 算出 系数 JB 为 


1 DN 1 [V+)/2 
JB= sp2 一 如 六 (3 (pa — pn) + 3 In (+ e/a| (2.4.14) 


ViViVl 
2.4.3 ”利用 检验 样本 集 估 计 判 选 率 矩 阵 和 错误 率 


由 上 面 的 讨论 可 见 , 即使 各 类 别 ww 出 现 的 先 验 概 率 r(wi) 和 样本 z ew; 时 的 
条 件 概 率 密度 p(z|w;) 都 为 已 知 ， 在 高 维 的 情形 下 , 判 选 率 矩阵 和 错误 率 在 计算 上 
也 是 相当 复杂 的 ， 即使 错误 率 上 界 的 计算 也 是 相当 复杂 的 , 有 时 在 实际 上 无 法 进行 . 

由 于 判 选 率 和 矩阵 在 模式 识别 中 的 重要 性 及 计算 上 的 复杂 性 , 促使 人 们 研究 对 于 
判 选 率 矩阵 特别 是 错误 率直 接 利用 样本 进行 计算 或 估计 的 方法 . 

假定 一 个 分 类 器 用 于 对 样本 进行 c 个 模式 类 w1 ,we 的 判别 . 可 以 按照 如 下 
方法 得 到 分 类 器 判 选 率 矩 阵 e 的 估计 . 给 定 一 检验 样本 集 有 NN 个 已 知 类 别 的 样本 ， 


其 中 wi(i = 1,2,…,c) 类 的 样本 有 Ni 个 , 显然 N = 》、 Ni 

假定 分 类 器 将 一 个 w; 类 的 样本 判别 为 一 个 w 类 的 效率 用 ss; 表示 、 当 把 w 
类 的 N; 个 样本 输入 分 类 器 后 , 被 判别 为 类 别 wi 的 样本 数 表示 为 Ni Ni; 是 一 个 
随机 变量 , 其 概率 分 布 服从 二 项 分 布 ， 


ii Ns; Ar, 
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OmnP(ND) _ Ns Mo- Ny 


Oeij Ei 1— E17 =0 . 
由 此 求 得 si 的 极 大 似 然 估 计 é&;;: 
Ei 一 弛 ANT， i,7 一 二 2 0 (2.4.15) 
二 项 分 布 随机 变量 Ni 的 期 望 值 和 方差 为 | 
E(Ni;) = Njeéeiy 
V(Ni;) = Nyeij(l — ei). 
因此 估计 量 &; 的 期 望 值 和 方差 为 : 
E(é:;) =E (党 ) 一 — £17) (2.4.16) 
V(éj)=V (于 ) = Oa) = 了 一 = 2). (2.4.17) 
2 了 2 


由 式 (2.4.16) 知 &; 是 cij 的 无 偏 估计 . 当 Niy 充分 大 (因而 Ni 必定 充分 大 ), 用 
式 (2.4.15) 和 式 (2.4.17) 估计 ei; 及 其 方差 是 它们 的 真 值 的 好 的 近似 , 式 中 的 ev 用 
2， 估计. 由 式 (2.4.17) 可 知 , eu 的 标准 偏差 随 着 VW 的 增 大 而 减 小 

我 们 还 可 以 讨论 一 定 置信 水 平 下 的 置信 区 间 (ei,e2) 与 6j 和 Ni 的 关系 . 置 
信 水 平 CL 定义 为 &; 落 在 置信 区 间 (sl,sz) 内 的 概率 : 


Ple1 < Eij < £2) = CL. (2.4.18) 


图 2.6 是 置信 水 平 CL = 95% 下 的 置信 区 间 (e1,e2) 与 6;; 和 Ni 的 关系 曲线 , 显 
然 , 训练 样本 数 Ni 越 大 , é&;; 的 置信 区 间 (ei, e2) 越 小 , 即 上 sj 与 真 值 si 的 差别 越 
小 . 例如 当 Ni = 50 而 Ni = 0, 则 86 = 0. 从 图 2.6 可 知 置信 水 平 CL = 95% 以 下 
的 置信 区 间 (el,s?) 为 (0,0.08), 即 si 在 (0,0.08) 范围 内 . 若 Ni = 250 而 Ni = 0， 
则 é&; = 0, eij 在 (0,0.02) 范围 内 . 

按照 上 述 随 机 抽样 方法 得 到 判 选 率 矩 阵 es 的 估计 后 , 容易 得 到 最 小 错误 率 贝 
叶 斯 决策 规则 分 类 器 正确 分 类 的 效率 的 估计 él(c): 


é(c) = >》 Tui)ea 一 y rwi) 
i=1 i=1 


袜 
Ni 


(2.4.19) 


错 分 率 的 估计 é(e) 
é(e) = 1 — é(e), (2.4.20) 
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图 2.6 95% 和 置信 水 平 下 的 置信 区 间 (e1,e2) 与 &y 和 N， 的 关系 曲线 
及 其 方差 的 估计 


Vlé(e)] = Vlé(e)| = V > ra 
= 2 st 一 655) = reop 答 人 (1- -学 . (2.4.21) 


如 果 检 验 样本 集中 不 同类 别 的 样本 数 _N;(i = 1,2,.…,c) 是 按照 先 验 概率 分 配 
的 , 即 


T(wi) = 完 ， t=1,2,...,c (2.4.22) 
代入 式 (2.4.19) 和 式 (2.4.21) 则 有 
é(c) 一 > 一 (2.4.23) 


YE(o] = VIé(e)] = V 耻 res| 一 3 Do Ns ( 
z=] i 二 1 
2.4.4 ”训练 样本 集 和 检验 样本 集 的 划分 


如 第 一 章 中 提 到 的 , 为 了 要 设计 分 类 器 , 通常 要 有 类 别 已 知 的 事例 样本 集 . 当 
利用 样本 和 集 来 确定 分 类 器 的 错误 率 , 同样 要 用 到 类 别 已 知 的 事例 样本 集 因此 , 许 
多 情况 下 样本 集 既 用 于 分 类 器 的 设计 (或 训练 ), 又 用 于 确定 分 类 器 的 错误 率 ( 即 其 
性 能 的 检验 ). 类 别 已 知 的 事例 样本 集 在 高 能 物理 实验 中 通常 有 两 种 途径 获得 ; 蒙 
特 卡 罗 模拟 数据 和 真实 实验 数据 . 模拟 数据 原则 上 可 以 产生 无 限 多 的 事例 , 但 受到 


Ni 
) | (2.4.24) 
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计算 机 机 时 的 限制 ; 对 于 非常 复杂 的 粒子 反应 过 程 , 模拟 一 个 反应 事例 的 计算 机 机 
时 并 不 短 , 因此 模拟 事例 样本 数 实际 上 也 是 有 限 的 . 至 于 真实 的 实验 数据 样本 , 更 
是 受到 实验 数据 收集 时 间 和 反应 截面 的 限制 , 数据 样本 量 往往 不 大 . 因此 怎样 利用 
有 限 的 类 别 已 知 的 事例 样本 集 来 设计 分 类 器 , 并 正确 地 估计 它 的 错误 率 , 就 是 一 个 
值得 研究 的 课题 . 

在 本 节 的 讨论 中 , 假定 用 于 分 类 器 的 训练 和 性 能 检验 的 样本 集 有 NN 个 样本 , 其 


中 wi(i = 1,2,…,c) 类 的 样本 有 Ni 个 , 显然 N = 》 Ni 


有 三 种 途径 利用 有 限 的 样本 进行 分 类 器 的 训练 和 性 能 检验 测试 

(1) 样本 划分 法 

假定 有 wi(i = 1,2,…,c) 类 的 样本 Ni 个 , 它们 被 分 为 两 组 , 第 一 组 称 为 设计 
集 (或 训练 集 )NP, 另 一 组 称 为 检验 集 (或 测试 集 )NT, 并 有 Ni = NDP + Ni. 其 中 
样本 集 NP 用 于 分 类 器 的 设计 , 样本 集 Ni 用 于 分 类 器 的 性 能 检验 . 显然 , 要 能 训 
练 出 性 能 好 的 分 类 器 , 并 能 估计 出 正确 的 错误 率 , ND 和 Ni 都 必须 充分 大 . 因此 
本 法 仅 适用 于 N 充分 大 的 情形 . 

(2) 留 一 法 

本 法 适用 于 NN 比较 小 的 情形 . 这 种 方法 中 , 先 选择 样本 1 用 作 性 能 检验 , 其 余 
的 N -1 个 样本 用 作 分 类 器 的 训练 设计 . 若 样本 1 属于 w;, 而 分 类 器 对 该 样本 的 
分 类 为 i, 则 对 变量 Ni ( 初 值 为 0) 的 值 加 1. 然后 选择 样本 2 用 作 性 能 测试 , 其 余 
的 N 一 1 个 样本 用 作 分 类 器 的 训练 设计 , 重复 以 上 的 步骤 . 以 此 类 推 , 直到 将 所 有 
N 个 样本 完成 同样 的 步骤 为 止 . 这 时 , 变量 Ni;j(i,j = 1,2,…,c) 的 值 表示 N 个 样 
本 中 Ni 个 wj;(7 = 1,2,…,c) 类 样本 被 分 类 器 判 为 wi(i = 1,2,…,c) 类 样本 的 数 
目 , 故 判 选 率 矩阵 的 矩阵 元 与 式 (2.4.15) 式 相 同 


佑 计量 &; 的 方差 、 分 类 器 正确 分 类 的 效率 E(c)、 错 分 率 El(e) 及 其 方差 依然 可 用 式 
(2.4.17) 和 式 (2.4.19)~(2.4.24) 表示 . 可 以 看 出 , 这 种 方法 充分 利用 了 仅 有 的 六 个 
样本 , 一 定 程度 上 解决 了 样本 划分 法 在 N 较 小 时 的 矛盾 ; 但 是 , 因为 要 进行 N 次 
分 类 器 的 训练 , 计算 量 比较 大 . 

(3) 分 组 轮换 法 

这 是 介 于 样本 划分 法 和 留 一 法 之 间 的 一 种 方法 . 把 N 个 样本 分 成 m 组 , 每 
组 含 N/m 个 样本 (应 为 正 整 数 )， 首 先 抽 第 一 组 样本 用 作 检 验 , 其 余 m -1 组 样 
本 用 来 训练 分 类 器 . 该 分 类 器 对 第 一 组 的 样本 逐一 作 分 类 , 若 样本 的 类 别 为 j, 而 
分 类 器 将 其 判别 为 i 类 样本 , 则 对 变量 N;; ( 初 值 为 0) 的 值 加 1. 对 所 有 m 组 样 
本 重复 同样 的 步骤 . 这 时 , 变量 Nij(i,j = 1,2,…,c) 的 值 表 示 NN 个 样本 中 Ni 个 
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wj(j = 1,2,…,c) 类 样本 被 分 类 器 判 为 wi(i = 1,2,.…,c) 类 样本 的 数目 . 于 是 式 
(2.4.15), 式 (2.4.17) 和 式 (2.4.19)~(2.4.24) 式 的 结果 仍然 适用 . 这 种 方法 在 已 知 样 
本 数 NN 一 定时 , 对 错误 率 的 估计 偏差 小 于 样本 划分 法 , 而 计算 量 小 于 留 一 法 (只 项 
作 mm 次 分 类 器 训练 ). 

2.4.5 ”利用 判 选 率 矩 阵 估计 各 类 “真实 ”样本 数 


如 若 有 一 待 分 类 的 样本 集 ， 其 中 模式 类 wi,wo,…,w。 的 样本 数 分 别 为 ml， 
n2 ,me， 被 判 选 率 和 矩阵 为 e 的 分 类 器 判别 为 模式 类 wi,w2,… ,we 的 样本 数 为 
元 1 ,元 2 … ,No. 如 果 定 义 c 维 癌 量 


n= na + mo) (2.4.25) 
元 = (fl fig， (2.4.26) 

则 有 
n= en. (2.4.27) 


反 过 来 , 假定 已 知 一 个 分 类 器 的 判 选 率 和 矩阵 为 <, 竺 分 类 的 一 个 样本 集中 属于 模式 
类 ui wo,… ,we 的 样本 数 为 未 知 (用 ni,n2,… ,nc 表示 ), 但 该 分 类 器 的 输出 值 已 知 
为 元 1 ,72,… ,和 部 。, 当 判 选 率 条 阵 e 的 道 算 阵 es-: 存在 , 即 其 行列 式 不 为 0: dete 尖 0， 
那么 待 分 类 样本 集中 各 类 的 “真实 ”样本 数 ni1,n2,.… ,nc 可 用 下 式 求 得 : 


n=e Nn. . (2.4.28) 


或 写成 显著 表 式 
m= epi i=1,2,..,c. (2.4.29) 
j=1 


式 中 , cj! 是 判 选 率 和 矩阵 = 的 逆 和 矩阵 e-! 的 元 素 . 该 式 告诉 我 们 , 即使 分 类 器 对 样 
本 的 种 类 存在 误 判 , 只 要 它 的 判 选 率 矩阵 能 够 以 足够 好 的 精度 加 以 确定 , 那么 , 从 
它 判 定 样本 集 的 结果 元 能 够 将 样本 集 的 原貌 n 以 一 定 的 精度 “复原 ”回来 . 

当 利用 式 (2.4.29) 从 分 类 器 的 判 选 率 和 矩阵 。 和 分 类 器 的 输出 值 却 ,io,…, 移 。 
计算 其 真实 值 nnz,…，,me 时 , 需要 注意 如 下 的 限制 条 件 : 待 分 类 的 样本 集中 的 样 
本 种 类 (用 集合 v = {v1,v2,… ,vb} 表示 ) 必须 包含 在 确定 分 类 器 判 选 率 矩阵 时 所 
用 到 检验 样本 集 的 模式 类 集合 w = {wi1, wo,… ,we} 之 中 , 即 必须 有 


UEwW (2.4.30) 


原因 可 以 这 样 来 前 明 : 假定 待 分 类 的 样本 集中 的 样本 种 类 比 检验 样本 集 模式 类 
w1,w2，,… ,we 多 出 一 种 , 用 wot1 表示 . 当 用 分 类 器 来 判别 待 分 类 的 样本 集中 的 
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样本 种 类 时 , 它 对 样本 类 别 的 输出 值 只 可 能 为 wwa,……,we, 不 可 能 为 wefi, 于 是 
该 分 类 器 会 将 待 分 类 的 样本 集中 的 wo 类 样本 以 某 种 概率 判定 为 wi, wo,…, wc 
样本 之 一 . 这 与 分 类 器 效率 sij 等 于 分 类 器 将 一 个 wj 类 的 样本 判别 为 一 个 w 类 
(i,7 = 1,2,…,c) 的 定义 不 符 , 于 是 &;; 的 表 式 (2.4.15) 不 再 适用 , 2.4.3 节 的 其 他 
公式 也 不 再 适用 . 通常 训练 分 类 器 的 训练 样本 集 的 模式 类 与 检验 分 类 器 的 检验 样 
本 集 的 模式 类 数目 和 种 类 是 相同 的 , 因此 结论 是 待 分 类 的 样本 集中 的 样本 种 类 的 集 
合 vv 必须 包含 在 训练 分 类 器 时 所 用 到 的 模式 类 集合 w 之 中 ， 这 一 结论 在 分 类 器 
的 实际 使 用 中 十 分 重要 . 例如 我 们 对 于 一 个 粒子 反应 过 程 的 研究 中 要 鉴别 带电 粒子 
e+, 二 , 但 实际 的 数据 样本 中 包含 了 带电 粒子 e+t, p+, nt, K+,p,5, 为 了 得 到 正确 的 
判 选 率 矩 阵 <, 训练 粒子 鉴别 的 分 类 器 和 用 样本 确定 < 时 , 训练 样本 集 和 检验 样本 
集 必 须 包 含 全 部 带电 粒子 e+, p+, zt,K+t,p,5 的 样本 , 而 不 能 仅 包含 et, p+ 样本 . 

下 面 来 讨论 用 式 (2.4.29) “复原 ”回来 的 样本 集中 ww 类 的 “真实 ” 样本 数 ni(i = 
1, 2,…,c) 的 误差 . 将 “间接 测定 量 ”m 视 为 “直接 测定 量 " 元 的 函数 , 利用 误差 传播 
公式 可 得 


Vuln) Se yy nk. On Vij(%n) k.l=1.2.... (2.4.31 
ki\T) 一 >》 On, BF)  。 27 ? LA et JC "二 ) 
i=1 j=1 ? 7 4 =n 


由 式 (2.4.29) 可 知 


Onx 0 一 
一 一 六 . 二 一 -一 二 
天 一 页 》 Ekj fj = Epi ， k=1,2,...,c. 
1 . 
j=1 


代入 式 (2.4.31) 得 


Y(nk) = Vek(n) 兰 》 》 em er Vis(h) 


i=1 j=1 


= SY erlerlpy (Na)oi0;, k=1,2,...,c (2.4.32) 
4 一 1 j=1 
式 中 , pij( 元 ) 是 元 和 元; 之 间 的 相关 系数 , 5; 是 元 ; 的 标准 偏差 . 
可 将 随机 变量 元 考虑 为 c 维 的 多 项 分 布 : 


M (ni;ii, p) = 


EE 和 1 五 2 er fc 
Rl Rei?! p32 De ， (2.4.33) 


其 中 参数 元 为 个 待 分 类 样本 被 分 类 器 判定 为 i(i = 1,2,.…,c) 类 样本 数 的 总 和 : 


元 三 》 元 (2.4.34) 


tz 二 1 
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pi(i = 1,2,…,c) 表示 分 类 器 判定 一 个 事例 为 一 个 i 类 事例 的 概率 . 
当 待 分 类 样本 集中 的 模式 类 集合 v 满足 式 (2.4.30) 时 , 分 类 器 将 待 分 类 样本 
集中 任 一 模式 类 的 样本 总 是 判别 为 类 别 wi, wa,… ,we 的 样本 之 一 , 这 时 有 


re 三 > 到 ;一 > mi Nn, | (2.4.35) 
“一 工 《一 1 
即 参 数 元 为 待 分 类 样本 集 的 样本 总 数 n, 为 一 个 常数 , 这 时 , 多 项 分 布 有 如 下 性 质 : 
均值 五 (而 让 三 TDj ， 了 三 112，C， (2.4.36) 
方差 Vi)=ip(l—p;), j=1,2,..,0, (2.4.37) 
协 方差 Viy 一 Cov (Ti, Ny;) 至 —Npipj, 7 ， 2 了 7 三 1, 2 ,1. (2.4.38) 


用 言 = 庆 / 充 作 为 p; 的 估计 , 并 将 式 (2.4.37~38) 代入 式 (2.4.32), 即 有 


[a [a CC 
V(ne) = (en) fipil—p)—Y 》 eren ipip; 
1 二 1 


和 a pe ,ee 


= D(a) (1- 某 )- DD 
4 一 | 


i=1 j=1,7#¥1 


(2.4.39) 


2.4.6 ”分 类 器 判定 的 “信号 ”样本 中 错 判 事例 的 扣除 


许多 实际 问题 中 涉及 的 往往 是 两 类 样本 的 分 类 问题 , 即 信号 样本 和 本 底 样 本 
的 判别 . 如 2.4.1 小 节 所 述 , 被 判 选 率 矩 阵 为 < 的 分 类 器 判别 为 模式 类 ws 的 样本 
( 即 “ 信 和 号 ”事例 ) 数 iis = essns + ssBna 中 , 除了 被 正确 地 判别 的 真实 信和 号 事例 数 
essns, 还 包含 了 错 判 样本 数 espns. 在 某 些 情形 下 , 后 者 甚至 大 于 前 者 . 因此 就 提 
出 了 将 错 判 样本 数 从 分 类 器 判定 的 “信号 ”事例 中 扣除 的 要 求 . 

这 种 情况 在 粒子 物理 实验 数据 分 析 中 具有 典型 意义 . 例如 为 了 测量 wy(2S) 一 
roJ/y 的 衰变 分 支 比 , 我 们 利用 北京 正 负 电子 对 擅 机 在 质心 系 能 量 3.686GeV 处 产 
生 y(2S) 粒子 : ete- 一 y(2S)， 由 于 w(2S) 粒子 有 很 多 衰变 道 , 我 们 需要 从 中 把 
信号 事例 y(2S) 一 roJ/y 挑选 出 来 , 这 一 过 程 在 粒子 物理 实验 数据 分 析 中 称 为 ( 信 
号 ) 事例 选择 , 相应 于 利用 一 个 事例 分 类 器 将 信和 号 事例 从 全 部 事例 中 判别 出 来 . 

在 这 项 具体 研究 中 , 问题 的 复杂 性 还 在 于 ro 和 J/w 都 是 寿命 极 短 的 粒子 , 它 
们 立即 衰变 : 70 一 yy, J/y 一 ete-,kth-, 因此 探测 器 对 于 信和 号 事例 能 探测 的 末 
态 是 yyete-,yyn+n-， 按照 粒子 物理 理论 , 由 J/w 衰变 产生 的 ete-,ptp- 的 不 
变质 量 应 当 在 J/vy 质量 附近 , 我 们 可 以 按照 we+e ,aru- 末 态 事例 的 特征 以 及 
ete-, hth- 的 不 变质 量 应 当 在 J/w 质量 附近 这 一 特点 设计 事例 选择 程序 ( 即 事例 
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分 类 器 ), 将 y(2S) 一 yyJ/w( 一 ete ) 和 下 (28) 一 YYJAY( 一 ptk ) 的 候选 事例 ( 即 
分 类 器 判定 的 “信号 ”事例 ) 判 选 出 来 . 在 这 一 分 类 器 中 两 光子 不 变质 量 Mi 是 用 
来 进行 事例 判 选 的 特征 变量 之 一 . 分 类 器 判定 的 “信号 ”事例 的 My 分 布 如 图 2.7 
所 示 [61. 由 图 可 见 , 在 0.135GeV 附近 出 现 明显 的 峰 状 结构 , 这 是 由 于 x? 衰变 产生 
的 两 个 光子 的 不 变质 量 应 当 在 ro 的 质量 即 0.135GeV 附近 , 而 yw(2S) 一 xwJ/y 信 
号 以 外 的 本 底 事例 的 Mi 分 布 则 呈现 比较 平坦 的 分 布 , 如 图 中 的 两 条 平滑 曲线 所 
示 . 将 实验 测量 值 用 代表 信号 事例 的 峰 状 曲线 和 代表 本 底 事例 的 平坦 曲线 作 拟 合 ， 
峰 状 曲线 的 面积 即 是 真正 的 y(2S) 一 roJ/y 信号 事例 数 , 即 实现 了 从 分 类 器 判定 
的 “信号 ”事例 数 中 扣除 本 底 事例 的 污染 . 代表 信号 事例 的 峰 状 曲线 和 代表 本 原 事 
例 的 平坦 曲线 的 函数 形式 应 当 根 据 对 于 信号 事例 和 本 底 事例 的 物理 过 程 的 理解 来 
确定 , 在 目前 的 例子 中 它们 分 别 是 高 斯 函数 和 多 项 式 函 数 . 


Entries/5MeV 
Entries/5MeV 


0.1 0.2 0.3 0.4 
四 myaev (b) MYWGeV 


图 2.7 事例 的 两 光子 不 变质 量 谱 
图 中 数据 点 为 实验 测量 值 ， 峰 状 曲线 是 信号 事例 的 拟 合 曲线 ,平坦 曲线 是 本 底 事例 的 拟 合 曲线 
(a) Y(2S) 一 YYJ/V( 一 efe-) (bj y(25) 一 yyJ/y(— Ru) 


应 当 指 出 , 分 类 器 对 于 “信和 号 ”事例 和 “本 底 ” 事 例 的 区 分 完全 依赖 于 单个 事 
例 的 特征 向 量 的 数值 , 而 上 述 从 分 类 器 判定 的 “信号 ”事例 数 中 扣除 本 底 事例 的 污 
染 的 方法 则 依靠 某 一 特征 变量 的 整体 分 布 , 这 在 分 类 器 中 是 无 法 完成 的 ; 只 有 在 分 
类 器 完成 事例 分 类 后 , 对 于 其 中 的 某 个 特征 变量 值 的 分 布 (信号 和 本 底 事 例 的 该 特 
征 变量 的 分 布 有 明显 的 不 同 ) 进行 拟 合 , 才能 将 真正 的 信号 事例 的 贡献 分 离 出 来 . 
例如 在 图 2.7 中 , 我 们 即使 在 分 类 器 中 把 特征 变量 My, 落 入 [0.1, 0.2]GeV 的 事例 
才 选 为 “信和 号” 事例, 仍然 有 相当 多 的 本 底 事例 会 被 判 为 “信号 ”事例 ( 即 Mi 落 入 
[0.1, 0.2]GeV 的 平滑 本 底 曲 线 下 的 部 分 事例 ). 为 了 能 够 对 本 底 曲 线 进行 拟 合 , 在 设 
计 分 类 器 时 , 该 特征 变量 的 区 间 应 当选 得 比 真正 的 信号 事例 区 要 宽 一 些 , 这 样 才 能 
根据 信和 号 事例 区 两 边 的 本 底 区 间 里 ( 即 所 谓 的 边 带 区 ) 的 该 特征 变量 的 分 布 来 拟 合 
本 底 曲 线 的 形状 . 


2.5 讨 论 . 41. 


2.5 讨 论 


本 章 讨论 了 基于 最 小 错误 率 的 贝 叶 斯 决策 , 以 及 对 于 两 类 问题 要 求 其 中 的 一 
类 错误 率 不 得 大 于 某 个 给 定常 数 而 使 男 一 类 错误 率 尽 可 能 地 小 的 Neyman-Pearson 
决策 方法 . 贝 叶 斯 决策 的 男 一 种 重要 方法 是 基于 最 小 风险 的 贝 叶 斯 决策 , 其 基本 有 思 
想 是 采用 每 一 个 决策 时 , 都 使 其 条 件 风 险 最 小 , 则 对 所 有 的 xw 作出 决策 时 , 其 期 望 
风险 也 必然 最 小 . 此 外 , 还 有 所 谓 的 最 小 最 大 决策 , 其 基本 思想 是 如 何 使 最 大 可 能 
的 风险 达到 最 小 . 这 里 对 这 两 种 决策 方法 没有 加 以 讨论 , 有 兴趣 的 读者 可 阅读 相关 
的 文献 下 ,以 幢 叶 斯 决策 为 核心 内 容 的 统计 决策 理论 是 统计 模式 识别 的 重要 基础 ， 
依据 它 设计 的 分 类 器具 有 理论 上 的 最 优 性 能 , 即 它 的 分 类 错误 率 或 风险 在 所 有 可 能 
的 分 类 器 中 是 最 小 的 , 因此 经 常用 来 作为 衡量 其 他 分 类 器 设计 方法 优 劣 的 标准 . 

既然 已 经 有 了 最 优 的 分 类 器 , 为 什么 还 有 必要 研究 其 他 方法 呢 ? 这 是 由 于 贝 叶 
斯 决策 分 类 有 两 个 重要 的 前 提 , 即 本 节 一 开始 提 到 的 : (1) 要 决策 分 类 的 类 别 数 c 
是 已 知 的 , (2) 要 求 对 应 于 各 类 别 w; 出 现 的 先 验 概率 r(wi) 和 样本 ze wi 时 的 条 
件 概率 密度 p(z|wi) 都 是 已 知 的 . 要 求 类 别 数 已 知 在 实际 的 监督 模式 识别 问题 中 毫 
不 困难 , 因为 这 是 我 们 分 类 的 目标 . 问题 的 困难 之 处 在 于 第 二 个 条 件 在 实际 问题 中 
通常 是 不 满足 的 . 因此 必须 寻找 先 验 概率 r(wi) 和 类 条 件 概率 密度 p(z|w;) 未 知情 
形 下 的 分 类 方法 . 

为 了 设计 这 种 条 件 下 的 分 类 方法 , 首先 可 以 想到 的 途径 是 设法 估计 出 先 验 概率 
和 类 条 件 概率 密度 . 前 者 可 以 根据 实验 数据 中 各 类 事例 样本 比例 的 先 验 知识 得 到 ， 
而 后 者 的 估计 却 需 要 统计 学 的 一 套 复杂 的 方法 .因而 实际 问题 中 用 贝 叶 斯 决策 理 
论 设计 分 类 器 , 其 关键 在 于 如 何 进行 类 条 件 概率 密度 的 估计 . 第 七 章 中 的 概率 密度 
估计 量 方法 , 讨论 了 利用 样本 数据 构造 类 条 件 概率 密度 的 估计 量 , 然后 再 用 贝 叶 斯 
方法 对 未 知 样本 进行 分 类 . 

能 否 不 按照 上 述 思路 而 直接 依靠 训练 样本 设计 分 类 器 呢 ? 事实 上 , 分 类 器 就 是 
确定 一 个 (或 一 系列 ) 判别 函数 (或 决策 面 ), 如 果 从 要 解决 的 问题 和 训练 样本 出 发 
直接 求 出 判别 函数 , 就 可 以 不 必 进 行 概率 密度 的 估计 . 在 某 些 情况 下 , 判别 函数 具 
有 较 简单 的 形式 , 比如 线性 或 二 次 函数 的 形式 . 如 果 事 先 能 够 确定 判别 函数 或 决策 
面 方程 的 形式 (或 为 了 分 类 器 设计 的 简便 将 判别 函数 设 定 为 某 种 简单 的 形式 )， 再 
通过 训练 样本 确定 其 中 的 参数 , 就 能 够 简便 地 设计 出 分 类 器 . 这 就 是 从 样本 出 发 直 
接 设 计 分 类 器 的 思路 . 这 类 方法 往往 更 具有 实用 价值 . 本 书 第 四 和 第 五 章 中 的 方法 
与 第 七 章 中 的 大 部 分 方法 都 属于 这 类 方法 . 

上 面 提 到 的 从 样本 出 发 直接 设计 分 类 器 的 思路 都 是 分 两 步 来 解决 模式 识别 问 
题 的 , 即 首 先 根据 已 知 数据 (训练 样本 ) 设计 分 类 器 , 然后 用 它 对 待定 样本 进行 分 
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类 . 能 否 直接 从 训练 样本 出 发 对 待定 样本 进行 分 类 呢 ? 第 六 章 中 的 近邻 法 就 是 采用 
了 这 种 思路 . 

本 章 2.4 节 对 分 类 器 效率 、 错 误 率 和 判 选 率 矩阵 及 相关 的 问题 作 了 简略 的 讨 
论 , 除了 明确 针对 贝 叶 斯 决策 的 部 分 之 外 , 其 一 般 原则 和 论述 同样 适用 于 其 他 判别 
方法 . 其 中 , 利用 数据 样本 直接 估计 判 选 率 矩阵 的 方法 具有 很 大 的 实用 价值 . 


第 三 章 ”线性 判别 方法 


3.1 线性 判别 函数 


3.1.1 ”线性 判别 函数 的 基本 概念 


假定 有 e 个 模式 类 , 用 wi,… ,wc 表示 . 所 有 的 样本 已 经 映射 到 特征 空间 里 . 
特征 空间 的 维 数 用 ”表示 , 每 个 样本 就 是 ”维特 征 空间 的 一 个 点 . 在 特征 空间 中 ， 
属于 一 个 模式 类 ww 的 点 集 与 属于 另 一 个 模式 类 w; 的 点 集 总 在 某 种 程度 上 互相 分 
离 . 若 能 找到 一 个 判别 方法 , 将 不 同类 的 点 集 分 离开 来 , 就 实现 了 不 同 模式 类 的 判 
别 . 

对 于 最 简单 的 两 类 问题 , c = 2. 两 类 问题 是 模式 分 类 的 基础 ， 多 类 问题 可 递归 
地 用 两 类 问题 来 解决 . 假定 特征 维 数 n= 2, 样本 点 或 特征 向 量 可 表示 为 


光一 (zl1， Z2) 


假定 已 知 两 个 模式 类 的 样本 点 在 特征 空间 中 的 分 布 如 图 3.1 所 示 . 可 以 找到 一 个 边 
界 , 满足 方程 


9(z) = 0, (3.1.1) 
它 把 特征 空间 划分 成 两 个 类 型 区 域 , 并 且 有 
g(z) > 0, 则 T Ew1, 
g(x) < 0， 则 zw € w,, (3.1.2) 


g(x2) = 0, 则 不 可 判别 . 


图 3.1 两 类 模式 的 判别 
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那么 , 对 于 任意 一 个 待定 模式 的 新 的 样本 点 , 就 可 用 式 (3.1.1)~(3.1.2) 来 确定 
其 模式 属于 wi 或 wo. 函数 g(x) 称 为 判别 函数 , 式 (3.1.2) 描述 了 判别 规则 , 而 式 
(3.1.1) 给 定 了 区 分 界面 . 一 般 地 , 对 于 ”维特 征 空间 , g(z) = 0 称 为 决策 面 方程 ; 在 
三 维特 征 空间 的 情形 下 , 它 表 示 判 别 界 面 ; 对 于 两 维和 一 维特 征 空间 , 它 退 化 为 分 
界线 和 分 界 点 . 当 n > 3, 判别 边界 为 超 表面 . 

根据 判别 函数 g(x) 为 特征 向 量 x 的 一 次 (线性 ) 函数 或 非 线 性 函数 , 称 为 线 
性 判别 函数 或 非 线 性 判别 函数 . 以 上 论述 虽然 是 从 特征 维 数 n= 2 开始 叙述 的 , 却 
对 于 任意 n 都 适用 . 

两 类 情况 下 线性 判别 函数 的 一 般 表 式 


g(z) = w+ wo, (3.1.3) 
式 中 , z 是 n 维特 征 向 量 ; w 称 为 权 向 量 : 
T= Ta) w= (Wi Wn)), (3.1.4) 


wo 是 个 常数 , 称 为 益 值 权 . 

由 于 g(x) = 0 为 决策 面 方程 , 且 g(z) 为 特征 向 量 x 的 线性 函数 , 则 对 于 三 维 
特征 空间 的 情形 , 它 表 示 决 策 平面 ; 对 于 两 维和 一 维特 征 空间 , 它 退 化 为 直线 和 分 
界 点 . 当 n > 3, 判别 边界 为 超 平面 . 这 样 , 可 以 给 出 两 类 问题 线性 可 分 性 的 定义 如 
下 : 当 属 于 两 个 类 型 的 样本 在 特征 空间 里 能 被 一 个 超 平面 区 分 时 , 它们 是 线性 可 分 
的 . 

下 面 , 我 们 来 讨论 超 平面 的 一 些 性 质 . 
假定 特征 向 量 zl 和 x2 都 在 决策 面 五 上, 则 有 


20TD1 十 200 二 WT po 十 Wo， (3.1.5) 


或 
T(zl — wm2)=0. (3.1.6) 
这 时 (zi - za) 是 决策 面 五 上 的 任意 一 个 向 量 , 所 以 式 (3.1.6) 表明 权 向 量 w 与 
超 平 面 太 上 的 任意 向 量 垂直 , 即 w 是 超 平面 及 的 法 向 量 . 超 平面 互 把 特征 空间 
分 成 两 个 半空 间 , 即 wi 模式 类 的 决策 域 RI 和 ws? 模式 类 的 决策 域 R。， 因为 按 式 
(3.1.2), 当 z 在 Ri 中 时 , g(x) > 0, 所 以 决策 面 玉 的 法 向 量 w 是 指向 Ri 的 . 
此 , 有 时 称 R; 中 的 所 有 z 在 超 平面 五 的 正 侧 , Ra 中 的 所 有 z 在 超 平面 五 的 负 
侧 . 


2 


判别 函数 g(z) 可 以 看 成 是 特征 空间 中 某 点 x 到 超 平 面 五 的 距离 的 一 种 代数 
度量 , 如 图 3.2. 若 把 x 写 为 


T= pp ro (3.1.7) 
wl i 
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.45. 


式 中 ,7 是 z 到 FH 的 重 直 距离 ; rp 是 w 到 五 的 垂直 线 与 H 的 交点 ; w/l|w|| 是 法 


问 量 w 方向 的 单位 向 量 . 


图 3.2 ”线性 判别 函数 
将 式 (3.1.7) 代入 式 (3.1.3), 可 得 


= wt 工 人 wi HH 人 人 
9(®) = (w+ 区 + Wp 全 Tp 


注意 到 rp 是 超 平面 互 上 的 一 个 点 , 故 有 wTz + wo = 0, 因此 
9(Z) 一 ?lo 


或 写 为 
ll 


当 z 为 原点 , 由 式 (3.1.3) 知 
9(z = 0) = wo. 
将 式 (3.1.9) 代入 式 (3.1.8), 就 得 到 原点 到 超 平面 fH 的 距离 


Wo 
lwll 


车 wo > 0, 则 原点 在 超 平面 五 的 正 侧 ; 若 wo < 0, 则 原点 在 超 平面 


?0 一 


(3.1.8) 


(3.1.9) 


(3.1.10) 


五 的 负 侧 ; 若 


wo 二 0, 则 g(z) 具有 齐 次 形式 g(z) = wTzw, 说 明 超 平 面 五 通过 原点 . 

总 之 , 利用 线性 判别 函数 进行 决策 , 就 是 用 一 个 超 平 面 把 特征 空间 划分 为 两 个 
模式 类 别 区 域 . 超 平面 的 方向 由 权 向 量 w 确定 , 它 的 位 置 由 阔 值 权 wo 确定 . 判别 
函数 g(z) 正比 于 x 点 到 超 平面 有 的 代数 距离 ( 带 正 负 号 ), 当 z 点 在 超 平 面 互 的 


正 侧 时 , g(z) > 0; 在 负 侧 时 , g(x) < 0. 
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3.1.2 ”广义 线性 判别 函数 


考虑 图 3.3 所 示 的 两 类 问题 , 设 有 一 维 样本 空间 X, 判别 函数 g(z) 如 图 中 曲 
线 所 示 , 即 zx > a 或 z <b 时 , > 属于 wi 类 ; 如果 b<z<a, 则 zz 属于 ws 类. 显 
然 , 没有 任何 一 个 线性 判别 函数 能 够 实现 这 样 的 判别 问题 . 这 说 明 线 性 判别 函数 虽 
然 简单 , 但 是 有 较 大 的 局 限 性 , 不 适用 于 非 凸 决策 区 域 和 多 连通 区 域 的 划分 问题 . 


’ 


(7) 


图 3.3 二 次 判别 函数 的 例 
但 是 , 如 果 建 立 一 个 二 次 判别 函数 


9(zZ) = (xz ~ a)(z —b) (3.1.11) 
则 可 以 很 好 地 解决 上 述 分 类 问题 , 决策 规则 是 
g(x) > 0, 则 决策 z e wl， 


g(z) < 0，。 则 决策 z € wz (3.1.12) 
二 次 判别 函数 可 写成 如 下 一 般 形式 
: g(z) = co 十 clz 十 caz2. (3.1.13) 


如 果 适 当选 择 z 一 y 的 映射 , 则 可 把 z 的 二 次 判别 函数 化 为 y 的 线性 函数 
3 
g(z) = VY = ,viyy, (3.1.14) 
7 三 1 


式 中 


bE 

| 
一 一 一 一 一 一 
HE 
| 

| 
| | 
He pp 
| 
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9(z) = vy 称 为 广义 线性 判别 函数 , v 称 为 广义 权 向 量 . 
一 般 说 来 , 对 于 任意 高 次 的 判别 函数 g(z), 都 可 以 通过 适当 的 变换 , 化 为 广义 线 
性 判别 函数 来 处 理 . vTy 不 是 z 的 线性 函数 , 但 却 是 y 的 线性 函数 . g(z) = vTy = 0 
在 空间 确定 了 一 个 通过 原点 的 超 平面 . 这 样 就 可 以 利用 线性 判别 函数 的 简单 性 
来 解决 较为 复杂 的 非 线性 问题 . 遗憾 的 是 , 经 过 这 种 变换 , 维 数 增加 了 , 这 将 使 问题 
陷入 所 谓 的 “ 维 数 灾难 ”. 但 车 把 式 (3.1.3) 定义 的 线性 判别 函数 写成 下 面 的 形式 : 


nn in 
g(z) = wi + wo = wo + > Ui DY vy =v Ty, (3.1.15) 
j=1 j=1 


其 中 


Tn Wn, 


则 它 是 广义 线性 判别 函数 的 一 个 特例 . 式 (3.1.15) 称 为 线性 判别 函数 的 齐 次 简化 ， 
y = (1,z) ”叫做 增 广 样本 向 量 , w = (wo,w)7 叫做 增 广 权 向 量 , 它们 是 亢 =m 十 1 
维 向 量 . 虽然 y 比 x 增加 了 一 维 , 但 保持 了 样本 间 的 欧 氏 距离 不 变 , 变换 后 的 样本 
向 量 仍然 全 部 位 于 ” 维 子 空间 , 即 原 来 的 X 空间 中 . 方程 


vy = 0, (3.1.16) 
在 Y 空间 中 确定 了 一 个 通过 原点 的 超 平面 廊 , 它 对 n 维 子 空 间 的 划分 与 原 决策 面 
9g(z) = we + wo = 0, 

对 原 入 空间 的 划分 完全 相同 . Y 空间 中 任意 一 点 y 到 超 平面 产 的 距离 可 根据 式 
(3.1.8) 求 得 : 

RY (3.1.17) 

现在 , 我 们 可 以 对 线性 可 分 性 的 概念 作 如 下 的 阐述 : 假设 己 知 一 组 容量 入 的 

样本 集 gj,y2,… ,yn, 其 中 y; 是 衣 二 n+1 维 增 广 样本 向 量 , 分 别 来 自 模 式 类 1 

和 wz. 如 果 存 在 一 个 线性 分 类 器 能 把 每 个 样本 正确 分 类 , 即 如 果 存 在 一 个 权 向 量 

v, 使 得 对 于 任意 的 y e wi, 都 有 vTy > 0; 而 对 于 任意 的 y e wz, 都 有 wTy < 0, 则 


称 该 样本 集 是 线性 可 分 的 ; 否则 称 为 线性 不 可 分 的 . 反 过 来 , 如 果 样 本 集 是 线性 可 
分 的 ， 则 必定 存在 一 个 权 向 量 v, 能 把 该 样本 集 的 每 个 样本 正确 地 分 类 . 
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3.1.3 ”线性 分 类 器 的 设计 


所 谓 线性 分 类 器 的 设计 , 就 是 利用 模式 类 已 知 的 训练 样本 集 建立 线性 判别 函数 
式 (3.1.3) 或 广义 线性 判别 函数 式 (3.1.15). 这 两 个 式 子 中 只 有 权 向 量 w 和 闭 值 权 
wo 或 增 广 权 向 量 v» 是 未 知 的 . 权 向 量 w 和 阔 值 权 wo 或 增 广 权 向 量 w 的 介 不 是 唯 
一 的 , 而 可 以 存在 多 个 介 . 设计 线性 分 类 器 的 过 程 , 实际 上 是 寻找 最 优 的 w 和 wo 
的 过 程 . 权 向 量 w 和 阐 值 权 wo 或 增 广 权 向 量 v 的 介 通 常用 准则 函数 J 来 寻找 ， 
最 优 的 tw 和 wo 值 通常 出 现在 准则 函数 J 的 极 值 点 上 . 这 样 , 线性 分 类 器 的 设计 问 
题 就 转化 为 利用 训练 样本 集 寻 找 准 则 函数 J 的 极 值 点 w* 和 ws 或 v* 的 问题 了 . 

于 是 , 设计 线性 分 类 器 的 主要 步骤 可 以 概括 如 下 ， 

(1) 事先 要 有 一 组 具有 类 别 标志 ( 即 类 别 已 知 ) 的 训练 样本 集 蕊 = {x1, za 
ZN}. 如 有 必要 , 将 训练 样本 集 瑟 转换 成 增 广 样本 集 Y. 

(2) 根据 实际 情况 确定 一 个 准则 函数 J 它 必须 满足 : (ai J 是 样本 集 和 和 
w,wo 或， 的 函数 ，(b) J 的 值 反 映 分 类 器 的 性 能 , 它 的 极 值 解 对 应 于 “最 优 的 
决策 . 

(3) 用 最 优化 技术 求 出 准则 函数 J 的 极 值 解 w* 和 ws 或 v*. 

这 样 就 可 以 得 到 线性 判别 函数 g(z) = w*Tz 十 we 或 g(x) = v*TYy. 

对 于 未 知 类 别 的 样本 zx, 只 要 计算 g(zk), 然后 根据 决策 规则 式 (3.1.2), 就 可 
判断 zk 所 属 的 模式 类 别 . 


3.2 Fisher 线性 判别 


关于 线性 判别 函数 的 分 析 , 历史 上 是 从 R.A.Fisher 的 经 典 论文 (1936 年 ) 开始 
的 局 ，Fisher 方法 涉及 维 数 降低 的 问题 . 因为 低 维 空间 会 给 问题 的 分 析 和 计算 带 
来 很 多 方便 , 而 高 维 空间 往往 会 使 某 些 解析 和 计算 方法 难以 实现 , 即 所 谓 “ 维 数 灾 . 
难 ”, 所 以 在 许多 情况 下 , 降低 维 数 就 成 为 处 理 实际 问题 的 关键 之 一 . 

为 了 实现 降 维 , 可 以 考虑 把 ”维特 征 空间 的 样本 投影 到 一 条 直线 上 , 即 把 特征 
空间 压缩 成 一 维 , 这 在 数学 上 容易 实现 . 但 是 , 即使 样本 在 ” 维特 征 空间 聚集 为 相 
互 分 离 的 点 群 , 它们 在 一 条 任意 直线 上 的 投影 却 可 能 相互 混杂 在 一 起 而 无 法 区 分 . 
因此 这 根 直线 方向 的 选择 非常 重要 . 一 般 情况 下 , 总 可 以 找到 某 个 方向 , 使 不 同 模 
式 类 的 样本 在 该 直线 上 的 投影 是 最 容易 区 分 开 的 . 如 何 找到 最 好 的 直线 方向 , 如 何 
实现 在 该 方向 上 的 投影 变换 , 就 是 Fisher 方法 要 解决 的 基本 问题 ( 见 图 3.4). 

下 面 讨论 二 类 模式 的 Fisher 线性 判别 方法 . 

假定 我 们 处 理 的 是 wi /wo 两 类 模式 的 分 类 问题 , 并 已 有 NN 个 n 维 训练 样本 
六 = {zl zz ,ZN} 其 中 Ni 个 样本 属于 wi 模式 类 记 为 子 集 X1，Na 个 样本 属 


”3.2 Fisher 线性 判别 . 49 . 


于 wz 类 记 为 子 集 X。. 


% ww 区 


ss- uw, 


i 0 n 


图 3.4 ”Fisher 线性 判别 的 基本 原理 
图 中 圆圈 和 叉 表 示 不 同类 的 样本 点 , 由 图 可 见 , 直线 wl 对 于 两 类 样本 点 的 区 分 比 直线 apz 好 


对 n 维 向 量 zi,i = 12…,N 作 如 下 变换 : 
Yi = WT! wi, i=1,2,...,N (3.2.1) 


yi 是 n 维 向 量 z; 通过 变换 w = (wu w2,… ,wn)T 得 到 的 一 维 标量 , 这 就 实现 了 从 
n 维 空间 到 一 维 空间 的 数学 变换 . y;, i = 1,2,…,N 是 n 维 向 量 训练 样本 XX 的 对 
应 一 维 样本 的 集合 Y; 并 可 划分 为 对 应 于 Xi 和 无? 的 两 个 子 集 二 和 了. n 维 向 
量 w 定义 了 n 维特 征 空间 中 的 一 条 直线 . 如 果 取 jlwll=1, 则 yi 就 是 zi 在 方向 为 
w 的 直线 上 的 投影 . 实际 上 w 的 绝对 值 是 无 关 紧 要 的 , 它 只 是 使 ys 乘 上 一 个 常数 
比例 因子 , 重要 的 是 选择 w 的 方向 . w 的 方向 不 同 , 将 使 样本 投影 后 的 可 分 离 程 度 
不 同 , 从 而 直接 影响 判别 效果 . 因此 , 寻找 最 好 投影 方向 的 问题 , 在 数学 上 就 是 寻找 
最 佳 的 变换 向 量 w* 的 问题 

下 面 研 究 如 何 得 到 最 佳 w 方向 的 解析 表 式 . 先 定义 几 个 必要 的 基本 参量 . 

(1) 在 nn 维 处 特征 空间 

(a) 各 类 样本 均值 向 量 mx(n 维 向 量 ) 


1 
m= 》 zi k=1,2 (3.2.2) 


(b) 样本 类 内 离散 度 矩 阵 Si 和 总 类 内 离散 度 和 矩阵 Sw(n x n 和 矩阵) 


1 工 
Sk 一 均 >》 (mi 一 rnh)(ci 一 mk)T7， k=1,2 (3.2.3) 
Di 


Sw = S1 + 52. (3.2.4) 
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(c) 样本 类 间 高 散 度 矩阵 Sb(n x n 宅 阵 ) 


Sp 一 (m1 一 m2) (m1 一 7722) 工 . (3.2.5) 
(2) 在 一 维 Y 空间 
(a) 各 类 样本 均值 hy 
hy = 南 Dy k=1,2 (3.2.6) 
YiEYE 


(b) 样本 类 内 离散 度 52 和 总 类 内 离散 度 52 


S2= 》 (yy—mx), k=1,2 (3.2.7) 
人 Ex 


92 = 93 十 92. (3.2.8) 
我 们 希望 经 过 投影 后 , 在 一 维 Y 空间 内 不 同类 的 样本 尽 可 能 分 离 得 开 些 , 即 两 


类 均值 之 差 (部 : - 击 2) 越 大 越 好 ; 同时 希望 各 类 样本 内 部 尽量 密集 , 即 类 内 离散 度 
52(k = 1,2) 越 小 越 好 . 因此 , 我 们 可 以 定义 Fisher 准则 函数 为 


(m1 — mh2)? 
SI+52 | 


显然 , 应 寻找 使 不 (w) 尽 可 能 大 的 w 作为 投影 方向 . 但 上 式 中 的 无 (w) 并 不 显 含 
w, 因此 必须 设法 将 大 (oo) 写成 w 的 显 函 数 形式 . 由 式 (3.2.6) 可 推出 


mk 一 元 》， yi 一 让 2», WT Ls = 2w! (起 >》， = 一 WT my, (3.2.10) 


JF(w) = (3.2.9) | 


YiEYE Wi 七 六 Nk Pi€EKk 
这 样式 (3.2.9) 的 分 子 便 可 写 为 
(mi — ma) = (wm ww m2) 


=w Tm ma)m mw = ww (3.2.11) 
再 考察 .不 (w) 的 分 母 与 w 的 关系 . 把 式 (3.2.1) 和 式 (3.2.10) 代入 式 (3.2.7) 可 得 
$2 = >》， (yi — mr) = > (wi oz: 一 wimx) 


ViEYE DiEKXL 


一 也 >》 (zi 一 ra (Fi — mx) | ww = wT Sw, 
Di 
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因此 
S24+ 52 = wT (S++ SS2)w = WwW Sww. (3.2.12) 


将 式 (3.2.11) 和 (3.2.12) 代入 式 (3.2.9) 可 得 下 (w) 的 w 显 函 数 形式 : 


(3.2.13) 


使 天 (w) 取 极 大 值 时 的 w* 是 最 佳 的 投影 方向 , 因此 需要 求 使 不 (w) 取 极 大 
值 时 的 w*， 上 式 中 的 .下 (w) 是 著名 的 广义 Rayleigh 商 , 可 以 用 Lagrange 乘 子 法 
求解 它 的 极 大 值 点 . 令 分 母 等 于 非 零 常数 , 即 令 


TS，Uz0 一 C 天 0. 


定义 Lagrange 函数 为 
L(w,AN) = w! Sww — AwT Sww — ce), (3.2.14) 
式 中 , 和 为 Lagrange 乘 子 . 将 式 (3.2.14) 对 w 求 偏 导数 并 令 其 等 于 0, 可 得 
ao -sw ASwwp =0, 
Ow 
于 是 有 


Sbw” = ASww”, (3.2.15) 


其 中 , w* 就 是 下 (w) 的 极 值 解 . 
由 式 (3.2.3)~ (3.2.4), Sw 正比 于 n 维特 征 空间 内 的 样本 协 方差 矩阵 , 它 是 对 称 
的 和 半 正 定 的 , 当 样 本 数目 NN > ”时 通常 是 非 奇异 的 , 所 以 可 有 


S71Spw* 一 NaD+， (3.2.16) 
求解 式 (3.2.16) 就 是 求 一 般 矩 阵 5-15% 的 本 征 值 和 本 征 向 量 问 题 . 但 在 我 们 的 问 
题 中 , 利用 式 (3.2.5)Sb 的 定义 , 式 (3.2.16) 左边 Sbw* 可 写成 


Sbw” 一 (m1 一 Nh2 ) (m1 一 7722) 工 ”一 (m1 一 2)B, 


式 中 


R= (m1 一 m2) 0 
为 一 标量 , 所 以 Sbw* 总 是 与 向 量 (mi - m2) 有 相同 的 方向 . 代入 式 (3.2.16) 得 


Mw* = SY! Sbw* = Sm1 — m2)R. 


' 52 ， 第 三 章 ”线性 判别 方法 


于 是 有 
WwW* = ST (mi — m2)R/A. (3.2.17) 


由 于 我 们 的 目的 是 寻找 最 佳 投影 方向 , w* 的 比例 因子 并 不 重要 , 因此 可 以 忽略 比 
例 因 子 R/ 和 , 得 到 w* 的 表 式 : 


Ww = S71 (m1 — mo2). (3.2.18) 


w* 就 是 使 Fisher 准则 函数 下 (w) 取 极 大 值 时 的 解 ， 也 就 是 n 维 瑟 特征 空间 
到 一 维 了 空间 的 最 佳 投 影 方向 . 有 了 w*, 就 可 以 按照 式 (3.2.1) 把 n 维 样 本 zx;， 
i 二 1,2,-…, NN 投影 到 一 维 Y 空间 , 这 实际 上 是 多 维 空间 到 一 维 空间 的 一 种 映射 . 

这 样 , 就 将 ” 维 样本 的 分 类 问题 转化 为 一 维 样本 的 分 类 问题 . 根据 两 类 训练 样 
本 久 ! 和 瑟 。 对 应 的 一 维 Y 空间 中 的 投影 值 y;, 容易 找到 区 分 两 类 样本 的 分 界 点 
益 值 yo, 例如 可 选择 一 维 Y 空间 中 的 投影 值 y; 的 均值 部 作为 阔 值 : 


w= (3.2.19) 
或 两 类 样本 均值 的 平均 元 作为 阔 值 : 
yo — i+ m2 2. (3.2.20) 
于 是 得 到 决策 规则 
g(z) 一 0*Tz 一 加 > 关 0 一 也 Ew1， 
(3.2.21 
9g(Z) 一 TI 一 <0 一 了 ZEw2. 


对 于 任意 的 未 知 样本 z, 只 要 计算 它 的 投影 点 y = w*Tw, 就 可 以 按照 决策 规则 式 
(3.2.21) 判断 它 属 于 什么 类 别 . 

由 式 (3.2.18) 知 , 当 两 类 样本 的 均值 向 量 相 等 时 (mi = m2), 找 不 到 最 佳 投影 
方向 w*. 即使 两 类 样本 的 总 体 分 布 的 形状 有 很 大 差异 , Fisher 方法 仍 无 法 对 两 类 
样本 作出 判别 . 在 这 种 情形 下 , 需要 对 特征 向 量 作 适 当 的 变换 (例如 平移 , 旋转 ), 使 
得 mi 关 m2 成 立 , 才能 利用 Fisher 判别 方法 . 

假定 属于 模式 类 wl 和 ws 的 样本 子 集 页 和 到 对 应 的 随机 变量 的 概率 密度 用 
f(y) 和 fo(y) 表示 . 图 3.5(a) 表示 只 要 选取 适当 的 闪 值 yo, 两 类 样本 可 以 用 Fisher 
线性 判别 完全 正确 地 区 分 开 来 ; 而 图 3.5(b) 表示 无 论 选取 什么 疮 值 yo, 两 类 样本 也 
不 可 能 用 Fisher 线性 判别 完全 正确 地 区 分 开 来 . 这 时 , 存在 误 判 率 的 问题 . 

如 第 一 章 所 述 , 粒子 物理 实验 数据 分 析 的 目的 是 把 信号 事例 从 大 量 本 底 事例 中 
挑选 出 来 ( 称 为 事例 判 选 ), 因此 是 一 个 两 类 模式 的 判别 问题 . 一 个 好 的 事例 判 选 判 
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用 天 fi(W i 


图 3.5 ”Fisher 线性 判别 的 适用 性 
(a) 不 存在 误 判 ; (b) 存在 误 判 


据 (事例 分 类 器 ) 应 当 对 信号 事例 有 高 的 选择 效率 , 有 低 的 误 判 率 ( 即 对 本 底 事例 有 
低 的 选择 效率 或 高 的 排除 率 ). 不 失 一 般 性 , 假定 信号 事例 样本 属于 模式 类 wl, 本 底 
事例 样本 属于 wo. 相应 地 , 信号 和 本 底 的 概率 密度 用 fs(y) 和 fe(y) 表示 . 对 于 给 
定 阐 值 yo, 决策 规则 g(z) = w*Tz 一 yo > 0 正确 地 选 定 一 个 信号 事例 的 效率 为 css 


ss dg (8.2.22) 
yo 


决策 规则 g(x) = w*Tz - 9 > 0 将 一 个 本 底 事例 错误 地 选择 为 一 个 信号 事例 的 误 
判 率 为 esp 


ESB 一 广 fe(y)dy, (3.2.23) 
效率 与 误 判 率 之 比 也 称 为 信号 /本 底 事 例 的 分 辨 能 力 + 
7 一 5SS/ESB. 《3.2.24) 


尽 可 能 高 的 信号 效率 和 信号 /本 底 分 辩 能力, 或 者 等 价 地 , 尽 可 能 高 的 信号 效率 和 
尽 可 能 低 的 误 判 率 , 是 粒子 物理 实验 中 事例 分 类 器 的 基本 要 求 , 也 是 一 般 的 模式 分 
类 器 的 基本 要 求 . 当然 , 在 许多 情况 下 , 这 两 者 是 互相 矛盾 的 , 实验 者 需要 根据 具体 
的 要 求 选择 适当 的 阔 值 yo 来 达到 对 于 信号 效率 和 误 判 率 的 适当 折衷 

一 般 情况 下 fs(y) 和 fe(y) 是 未 知 或 难以 求 得 的 . 但 如 果 有 了 足够 数量 的 信号 
和 本 底 事例 的 训练 样本 , 可 以 容易 地 求 得 sss,ess 和 的 估计 量 及 其 方差 . 假定 信号 
和 本 底 事例 的 训练 样本 个 数 分 别 为 Ns 和 Ns, 其 中 用 决策 规则 g(z) = 20” 人 一 go > 
0 选 定 为 信号 事例 的 个 数 分 别 为 nss 和 nsp, 则 sss,ese 和 的 估计 量 为 


éss = ngs/Ns 


ésB = nsB/NB 


~ éss nssNB 
7 一 一 一 一 -一 一 . 3.2.25 
ESB NnsBNs ( ) 
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这 些 估计 量 的 方差 可 以 由 二 项 分 布 求 得 为 


/| 

V(éss) ~ St — éss) sss) 

ésB (1 — ésB) 
NB : 


V(F) ,Vl(éss) J. V (ésB) 


V (ésBp) 守 


F2 E2 


(3.2.26) 
SS <SB 


3.3 ”感知 准则 函数 


3.3.1 ” 几 个 基本 概念 


”为 了 便于 后 面 的 叙述 , 先 介绍 几 个 基本 概念 . 

(1) 线性 可 分 性 的 概率 

在 3.1 节 已 经 阐明 , 假设 已 知 一 组 容量 NN 的 样本 集 yh ,yo2,… ,yn, 其 中 y; 是 
骨 二 n 十 1 维 增 广 样本 向 量 , 分 别 来 自 模式 类 w， 和 wz. 如 果 存 在 一 个 线性 分 类 器 
能 把 每 个 样本 正确 分 类 , 即 如 果 存 在 一 个 权 向 量 v, 使 得 对 于 任意 的 y e wi, 都 有 
vTYy > 0; 而 对 于 任意 的 y e ws, 都 有 wvTy < 0, 则 称 该 样本 集 是 线性 可 分 的 ; 否则 
称 为 线性 不 可 分 的 . 反 过 来 , 如 果 样 本 集 是 线性 可 分 的 , 则 必定 存在 一 个 权 向 量 %， 
能 把 该 样本 集 的 每 个 样本 正确 地 分 类 . 

那么 对 于 容量 N 的 样本 集 , 线性 可 分 的 概率 有 多 大 . 

一 般 来 说 , 假设 有 NN 个 n 维 样本 , 每 个 样本 点 被 标明 属于 模式 类 wi 或 wo. 
这 N 个 n 维 样本 共有 2 种 可 能 的 二 分 法 , 但 其 中 只 有 一 部 分 是 线性 二 分 法 , 即 
对 于 它们 存在 某 一 个 超 平 面 能 把 属于 wi 的 样本 与 属于 ws 的 样本 分 割 开 来 . 如 果 
N > n 时 没有 n 十 1 个 样本 落 入 n 一 1 维 子 空间 内 (如 n= 3, 这 N 个 3 维 样本 没 
有 4 个 样本 落 在 同一 个 2 维 平面 内 ); 而 当 N < ”时 没有 2 个 或 以 上 的 样本 落 入 
n 一 2 维 子 空间 内 , 那么 , 这 2Y 种 可 能 的 二 分 法 中 线性 二 分 法 所 占 的 比例 , 或 者 说 
概率 , 可 用 下 式 给 出 : 


1 Nn, 


P(N,n) = (3.3.1) 


3 
天 
21N 》 CN 1， N>n. 
i=1 


这 一 函数 表示 在 图 3.6 中 . 

(2) 样本 的 规范 化 

由 前 面 的 讨论 可 知 , 如 果 样 本 集 yy2,… ,yn, 其 中 yi 是 交 = n+1 维 增 广 样 
本 向 量 , 分 别 来 自 模式 类 wi 和 wa. 如 果 存 在 一 个 线性 分 类 器 能 把 每 个 样本 正确 分 
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类 , 即 如 果 存 在 一 个 权 疝 量 v, 使 得 对 于 任意 的 y e wi, 都 有 wTy > 0; 而 对 于 任意 
的 ye wz, 都 有 wvTy < 0, 则 称 该 样本 集 是 线性 可 分 的 ; 否则 称 为 线性 不 可 分 的 . 


2 
N/(n+1) 
3.6 n 维 空间 N 个 样本 点 的 二 分 法 可 以 线性 分 割 的 比例 


由 前 面 的 讨论 可 知 , 如 果 样 本 集 y, yz,… ,yx 是 线性 可 分 的 , 则 必定 存在 一 个 
或 一 个 以 上 的 权 向 量 v, 使 得 


| viy; > 0， 对 一 切 W € wi 


3.3.2 
ToW1 < 0， ”对 一 切 yj € wo B39) 


或 者 说 , 满足 上 式 的 一 切 权 向 量 v 都 能 将 全 部 N 个 样本 正确 地 分 类 . 上 式 中 如 果 
在 属于 wa 类 的 样本 y; 前 面 加 一 个 负 号 , 即 令 ys = 一 y;, 则 有 vTy; > 0. 因此 , 车 
令 
) Wi, 对 一 切 Yi E wl 
Ym = | _yj， 对 一 切 妨 cm (3.3.3) 
那么 , 我 们 可 以 不 管 样本 原来 的 类 别 标志 , 只 要 寻找 一 个 对 全 部 N 个 样本 的 y' 都 
满足 vTy, > 0, m = 1,2,…, 的 权 向 量 v 就 可 以 了 . 上 述 过 程 称 为 样本 的 规范 
化 , yi 叫做 规范 化 增 广 样本 向 量 . 在 后 面 我 们 仍然 用 y, 来 表示 它 . 
(3) 解 癌 量 和 解 区 
在 线性 可 分 的 情形 下 , 满足 vTym > 0, m = 1,2,…, NN 的 权 向 量 wv 称 为 解 向 
量 , 记 为 v*. 权 向 量 v 可 以 理解 为 权 空间 中 的 一 个 点 , 每 个 样本 wy 对 v 的 可 能 位 
置 都 起 到 限制 作用 , 即 要 求 vTy, > 0. 方程 wTy > 0 确定 了 一 个 通过 权 空间 原 
点 的 超 平面 二 ,其 法 向 量 为 ya. 解 向 量 如 果 存 在 , 则 必定 在 超 平面 应。 的 正 侧 ， 
因为 只 有 在 正 侧 才 能 满足 vTy > 0. N 个 样本 将 产生 N 个 超 平面 , 每 个 超 平面 
把 权 空 间 分 为 两 个 半空 间 . 所 以 , 解 向 量 如 果 存 在 , 必定 落 在 N 个 正 半空 间 的 交替 
区 , 而 且 该 区 中 的 任意 向 量 都 是 解 向 量 vw*. 该 区 域 称 为 权 向 量 v 的 解 区 . 图 3.7 是 
二 维 情况 下 解 区 的 图 示 . 
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(4) 对 解 区 的 限制 
”对 解 区 加 以 限制 的 目的 在 于 使 解 向 量 v* 更 可 靠 . 通常 认为 , 越 靠近 解 区 中 间 
的 解 向 量 越 能 对 待定 的 新 样本 正确 分 类 ， 因 此 , 可 引入 余 量 5 > 0, 并 寻找 满足 
vTym 之 b 的 解 向 量 v*. 显然 , 由 vTy > b > 0 得 到 的 正 半 空间 的 交 释 区 ( 即 新 解 
区 ) 位 于 原 解 区 之 中 , 而 且 它 的 边界 离开 原 解 区 边界 的 距离 为 5/ yl, 如 图 3.8 所 
示 . 实际 上 , 只 要 解 向 量 v* 的 算法 不 至 于 收敛 到 解 区 的 边界 , 这 样 的 解 向 量 v* 都 
能 满足 要 求 . 显然 , 通过 引入 余 量 5 > 0 可 以 很 好 地 解决 这 一 问题 . 


解 区 


zx 一 解 向 量 


。: 第 一 类 样本 
=: 第 二 类 样本 


3.7 权 向 量 的 解 区 和 解 向 量 的 示意 图 
(a) 未 规范 化 样本 ; (b) 规范 化 样本 


3.8 引入 余 量 的 权 向 量 的 解 区 


3.3.2 ”感知 准则 函数 


设 有 一 组 样本 yi,y2,… ,yn, 其 中 ym, m = 1,2,…,N 是 规范 化 增 广 样 本 向 
量 . 我 们 的 目的 是 寻找 一 个 解 向 量 vw*, 使 得 


viym > 0, m= 1,2,...,N, 
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显然 , 仅 当 样本 是 线性 可 分 的 情况 下 , 问题 才 有 解 . 
因此 , 这 里 考虑 的 是 处 理 线性 可 分 问题 的 算法 . 先 构造 一 个 如 下 的 准则 函数 


Jp(v) = >》 (一 并 1)， (3.3.4) 
YyEYY 
式 中 , 7. 是 被 权 向 量 v 错误 分 类 的 样本 集合 . 当 样本 y 被 错误 分 类 时 , 就 有 _oTy，> 
0, 因此 , Jp(v) 总 是 大 于 等 于 0, 而 且 仅 当 v 为 解 向量 或 v 在 解 区 边界 上 时 .p(w) 
才 等 于 0. 也 就 是 说 , 当 且 仅 当 Yi 为 空 集 时 ， 


.PP() = min Jp(v) = 0. (3.3.5) 


这 时 将 不 存在 错 分 样本 , 这 里 的 权 向 量 v 就 是 我 们 要 寻找 的 解 向 量 v*. 这 一 准则 
函数 是 20 世纪 50 年 代 Rosenblatt 提出 , 试图 用 于 人 工 神经 网 络 的 脑 模型 感知 器 
(参见 第 五 章 ) 上 的 , 故 一 般 称 为 感知 准则 函数 . 

由 于 准则 函数 下 (vw) 极 小 时 对 应 的 wv 为 解 向 量 v*, 问题 就 转化 为 求 准则 函数 
Jp(v) 的 极 小 值 时 的 w. 这 可 以 由 一 般 的 最 优化 计算 方法 来 达到 . 例如 可 以 采用 梯 
度 下 降 法 , 将 式 (3.3.5) 对 v 求 梯 度 , 有 


VJp(v) = 一 全 = 》 (-y), (3.3.6) 


YEYY 
梯度 下 降 法 的 迭代 公式 为 
v(k+1)= vk)— pV 
将 式 (3.3.6) 代入 上 式 得 到 可 以 用 来 作 实际 运算 的 迭代 公式 


v(k+1)=v(k)+pe > y, (3.3.7) 
YEYY 
式 中 , i 是 被 权 向 量 wv(k) 错 分 的 样本 集合 . 
梯度 下 降 法 可 以 简单 地 表述 为 , 任意 给 定 初始 权 向 量 w(1), 第 k+1 次 迭代 时 的 
权 向 量 v(k 十 1) 等 于 第 次 迭代 时 的 权 向 量 v(k) 加 上 被 v(k) 错 分 的 样本 值 之 和 
乘 以 某 个 系数 pi. 可 以 证 明 , 对 于 线性 可 分 的 样本 集 , 经 过 对 初始 权 向 量 v(1) 的 有 
限 次 和 迭代 修正 , 一 定 可 以 找到 一 个 解 向 量 v*, 即 和 迭代 算法 在 有 限 次 迭代 后 收 敏 , 其 
收敛 速度 的 快慢 取决 于 初始 权 向 量 v(1) 和 系数 pj. 
上 述 梯度 下 降 法 可 以 加 以 简化 . 从 式 (3.3.7) 可 以 看 出 , 在 每 次 迭代 中 , 只 有 那 
些 被 错 分 的 样本 才 对 权 向 量 v 的 修正 起 作用 . 因此 可 以 将 样本 集 看 作 一 个 不 断 出 
现 的 样本 序列 , 逐个 样本 考虑 对 权 向 量 wv 的 修正 . 对 于 任意 权 向 量 v(k), 如 果 它 把 
茶 个 样本 错 分 了 , 则 对 v(k) 作 一 次 修正 , 这 种 方法 称 为 单 样本 修正 法 . 例如 样本 集 
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容量 N=3, 考虑 由 3 个 样本 组 成 的 序列 信 ,ya, 3, 1 如 o, Ys, 如 ,Vy2,y3…, 其 中 有 
“~ 记号 的 样本 表示 被 错 分 的 样本 , 首先 , 把 错 分 样本 的 序列 各 ,a, 各 ,如 ,… 重新 
记 为 大 ,更 , 宛 , 友 ;其 次 , 把 系数 pk 看 作 不 随 而 变化 的 常数 , 不 失 一 般 性 , 可 
令 m = 1. 这 样 简化 后 的 梯度 下 降 法 可 以 表示 为 
| v(1)， ”任意 
v(k+1)=vk) + od 

其 中 , y* 是 被 v(k) 错 分 的 样本 . 这 样 的 迭代 一 直 进 行 到 对 于 原样 本 集 yy1, yo,:… ,yn 
的 一 次 循环 中 不 再 出 现 被 错 分 的 样本 为 止 , 就 得 到 解 向 量 wv*. 

算法 式 (3.3.8) 称 为 固定 增 量 法 , 它 首先 由 Rosenblatt 提出 , 并 证 明了 其 收敛 
性 (这 里 从 略 ), 称 为 感知 收敛 定理 . 


3.4 最 小 错 分 样本 数 准 则 函数 


3.3 节 已 经 指出 , 感知 准则 函数 及 其 梯度 下 降 算 法 只 适用 于 样本 集 线 性 可 分 的 
情形 , 对 于 样本 集 线 性 不 可 分 的 情形 , 迭代 过 程 永远 不 会 终结 , 即 算法 不 收敛 . 在 实 
际 问题 中 , 往往 事先 无 法 知道 样本 集 是 否 线性 可 分 . 因此 我 们 希望 能 找到 一 种 既 适 
用 于 样本 集 线 性 可 分 、 也 适用 于 样本 集 线 性 不 可 分 情况 的 算法 . 这 种 算法 对 于 线性 
可 分 问题 应 当 可 以 得 到 一 个 如 感知 准则 函数 那样 的 解 向 量 v*, 使 得 对 两 类 样本 集 
的 所 有 样本 能 正确 地 分 类 ; 而 对 于 线性 不 可 分 问题 , 则 能 得 到 一 个 使 两 类 样本 集 被 
错 分 的 样本 数 达 到 极 小 的 解 向 量 vw*. 上 述 准 则 称 为 最 小 错 分 样本 数 准 则 . 

设 有 一 组 样本 角 ,yz,… ,yn, 其 中 ym, mm = 1,2,…,N 是 规范 化 增 广 样本 向 
量 . 如 果 存在 权 向 量 w*, 使 得 

viym>0, m=1,2,...,N. (3.4.1) 


即 式 (3.4.1) 所 示 的 NN 个 线性 不 等 式 有 解 , 即 不 等 式 组 相 一 致 , 则 样本 集 y,,, 是 线 
性 可 分 的 , 并 被 其 解 向 量 v* 正确 分 类 . 若 不 等 式 组 无 解 , 即 不 等 式 组 不 一 致 , 样本 
集 yw 线性 不 可 分 , 则 对 于 任何 权 向 量 w, 必定 有 某 些 样本 被 错误 地 分 类 . 这 时 我 
们 只 能 寻找 使 得 不 等 式 得 到 满足 的 数目 最 大 的 权 向 量 v, 把 它 作为 问题 的 解 w*. 先 
用 矩阵 形式 重 写 式 (3.4.1) 所 示 的 不 等 式 组 ， 


(3.3.8) 


Yuv>0 (3.4.2) 
其 中 
Yi Vil VY12 V1 
Y2 V21 VY22 Yn 


Y= = | | | ， (3.4.3) 


YN YN1 YN2 … YN 
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Y 是 Nxt 规范 化 增 广 样本 矩阵 , th 是 样本 yn 的 维 数 . 为 了 使 解 更 可 靠 , 引入 余 
量 5 > 0, 上 式 改 写 为 


z Yo > > 0. (3.4.4) 
不 失 一 般 性 , 可 以 取 
1 
b= | N 个 1 
1 
对 于 式 (3.4.4), 可 以 定义 准则 函数 
av) = Yo 已 -yo bl (3.4.5) 


准则 函数 1(v) 中 如 果 Yv > b, 则 Yv 一 5b 与 |Yw 一 4| 同 号 , 故 Ji(v) = 0; 反 
之 , 如 果 有 某 些 y,, 不 满足 vTym > bm 则 Yon 一 bm 与 |Yvm 一 bm| 异 号 , 因此 
Jn(v) > 0. 不 满足 vTym > bm 的 样本 yn 数量 越 多 , 1(v) 越 大 . 显然 01(v) 取 
极 小 值 时 的 v 为 问题 的 最 优 解 v*; 并 且 当 样本 和 集 yn 是 线性 可 分 时 Ji(o) = 0, 当 
样本 集 yn 是 线性 不 可 分 时 J01(v) > 0. 准则 函数 Jo1(v) 求 极 小 的 问题 可 由 最 优 
化 方法 求解 , 这 里 不 再 讨论 . 

式 (3.4.5) 表示 的 准则 函数 Jo1(v), 在 不 等 式 组 不 一 致 的 情况 下 , 对 某 些 样本 可 
能 存在 0 < vTyn < bm， 这 时 因为 wT2y > 0, ym 应 该 能 被 正确 分 类 ; 但 又 由 于 
vTYm < bm, 所 以 用 式 (3.4.5) 准则 函数 01(v) 得 到 的 解 v* 来 分 类 时 该 yn 会 被 
错 分 . 因此 需要 对 式 (3.4.5) 表示 的 准则 函数 J01(v) 作 适 当 的 修正 . 

如 果 式 (3.4.5) 中 取 5b = 0, 则 准则 函数 变 成 


Jio) 一 | Yo 一 zol |. (3.4.6) 


在 一 致 的 情况 下 , 利用 最 优化 方法 求 上 述 准则 函数 的 极 小 可 收敛 于 Yv > 0 的 解 向 
量 v*. 在 不 一 致 的 情形 下 , 由 于 .Jai(o) 是 严格 的 凸 函数 , 其 唯一 的 极 小 点 是 v = 0， 
而 且 有 Joi(o) = 0. 因此 得 不 到 解 向 量 wv*. 在 这 种 情况 下 , 我 们 可 以 用 


_ Ye 一 Yol 睹 
ol 


Fl(v) (3.4.7) 
作为 准则 函数 来 克服 上 述 困难 , 当 利用 VuF(o) = 0 求 F(v) 的 极 小 时 , 容易 得 到 
下 述 关系 : 

VoF(o) cc VyJa(v) — 2F(v):v = 0. (3.4.8) 
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这 说 明 , 使 F(v) 达到 极 小 与 w 关 0 并 满足 
VuydJa(v) = 2F(v) 7 (3.4.9) 


条 件 下 使 .ji(w) 达到 极 小 是 等 价 的 . 这 样 得 到 的 权 向 量 v 就 是 问题 的 解 闪 量 v* 


3.5 ”最 小 平方 误差 准则 函数 


3.5.1 平方 误差 准则 函数 及 其 MSE 解 


3.4 节 已 经 指出 , 最 小 错 分 样本 数 准 则 是 寻找 一 个 权 向 量 v, 使 得 不 等 式 vTy,, > 
0 得 以 满足 的 样本 yw 的 数目 最 大 , 从 而 使 错 分 样本 数 最 少 . 在 不 等 式 组 一 致 的 情 
形 下 , 则 得 到 解 区 中 的 一 个 解 向 量 v* 

现在 我 们 把 不 等 式 组 变 为 如 下 形式 ， 


viym=bm>0 
其 中 , bm 为 任意 给 定 的 正常 数 . 将 上 式 写 成 联 立 方程 组 的 形式 即 为 
Yv=b (3.5.1) 
其 中 , Y 是 N x 交规 范 化 增 广 样本 矩阵 , 由 式 (3.4.3) 给 定 , 5b 是 N 维 向 量 : 
b=(b, ba ... bn)’ 


bm > 0, m= 1,2,...,N. 
通常 样本 数 N 总 是 大 于 维 数 1, 因此 Y 是 长 方 阵 , 且 一 般 为 列 满 秩 阵 . 这 对 
应 于 方程 个 数 多 于 未 知 数 的 情况 , 因此 一 般 为 矛盾 方程 组 , 通常 不 存在 精确 解 . 我 
们 可 以 定义 一 个 误差 向 量 
已 一 YY? 一 已 


并 定义 平方 误差 准则 函数 


N 
J(v) = el =||Yv — 6 = >》 (om — bm)?. (3.5.2) 
7 一 二 
寻找 一 个 使 (v) 达到 极 小 的 权 向 量 v 作为 问题 的 解 , 这 就 是 矛盾 方程 组 的 最 小 二 
乘 近似 解 , 也 称 为 伪 逆 解 或 MSE 解 , 我 们 仍 用 v* 表示 . 式 (3.5.2) 定义 的 准则 函数 
也 称 MSE 准则 函数 . 


现在 来 求 MSE 解 的 显著 表 式 . 对 J,(v) 求 梯度 , 得 


N 
VJ(v) = 》 2(v ym — bm)ym = 2Y (Yow —b). (3.5.3) 
m=1 
令 VJ,(v) = 0 求 极 小 , 得 
YrYv*=Y"b. (3.5.4) 
这 样 , 求解 Yu = bb 的 问题 转化 为 求解 YTYu* = YT6 的 问题 了 . 式 (3.5.4) 的 好 
处 是 YTY 是 序 x 郊 方 阵 , 而 且 一 般 是 非 奇异 的 , 因此 可 唯一 地 求 得 解 问 量 v*: 


2* 一 (YIY) Yb= Ytb, (3.5.5) 
式 中 ,和 tx N 矩阵 Y+ 是 Y 的 左 道 矩 阵 
Yt+= (YY)- YT. (3.5.6) 


由 式 (3.5.4) 知 问题 的 解 v* 取决 于 给 定 的 六 维 问 量 b, 因此 就 有 一 个 b 如 何 
选取 的 问题 . 可 以 证 明 , 对 于 二 类 问题 , Ni 个 样本 属于 wi 类 ,No 个 样本 属于 ws 
类 , 总 样本 数 N = Ni + Na, 当 取 


N/Ni 
: 和 i 个 
b= | MM (3.5.7) 
N/N; 
: Nz 个 
N/N; 
则 MSE 解 v* 等 价 于 Fisher 解 . 并 得 到 
Wt 一 —Mm (3.5.8) 
和 如 下 决策 规则 ; 
WO*T(Z 一 902) > 0 则 ze wa， 
+T(z 一 rz) < 0， 则 zewo， (3.5.9) 
其 中 , m 是 总 的 样本 均值 
_ Nimi+ Nm2 


这 与 Fisher 线性 判别 方法 中 取 yo = 的 情况 是 相同 的 . 
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这 里 , 我 们 不 加 证 明 地 给 出 MSE 解 的 另 一 个 有 用 性 质 : 当 样 本 数 N 趋 于 无 穷 
时 , 如 果 令 b= 一 wn 


UN 一 NN 个 ， (3.5.10) 


则 MSE 解 以 最 小 均 方 误差 逼近 贝 叶 斯 判别 函数 (参见 式 (2.1.22)) . 

gp(z) = gd(wilz) -ga(calz) (3.5.11) 
对 问题 的 解 . 
3.5.2 ”MSE 准则 函数 的 梯度 下 降 算 法 

在 计算 权 向 量 的 MSE 解 

v*=Yitb 
时 需要 计算 Y 的 左 道 矩 阵 Y+ = (YTY)-!YT. 这 会 带 来 两 个 问题 : 第 一 是 要 求 
(YTY) 为 非 奇异 矩阵 ; 第 二 是 求 Y+ 的 计算 量 比较 大 , 因为 Y 是 一 个 N x 放 和 托 阵 ， 
而 总 样本 数 NN 往往 很 大 , 同时 在 大 量 的 计算 中 还 可 能 引入 较 大 的 计算 误差 . 因此 
在 实际 工作 中 往往 不 用 这 种 解析 方法 , 而 是 采用 最 优化 技术 如 梯度 下 降 法 来 求解 . 
由 式 (3.5.3) 知 天 (wo) 的 梯度 为 


VJ(v) = 2YT(Yw— b) 


则 梯度 下 降 算 法 可 表示 为 
| v(1)， “任意 . (3.5.12) 
v(k+1)=vk)— piY (Yov—b) 
可 以 证 明 , 如 果 选 择 
pk 二 pi/k， pi 任意 正常 数 (3.5.13) 


则 用 该 算法 得 到 的 权 向 量 序列 收敛 于 使 
VJ(v)=2Y"(Yv—b)=0 


的 权 向 量 vw*, 即 MSE 解 . 无 论 和 矩阵 (YTY) 是 否 奇 异 , 该 算法 总 能 产生 一 个 有 用 的 
权 向 量 , 而 且 该 算法 只 计算 矩阵 与 向 量 的 乘积 , 避免 了 Y+ = (YTY)- :YT 中 的 矩 
阵 与 矩阵 疗 的 乘积 运算 和 和 矩阵 的 求 逆 运 算 , 大 大 减 小 了 计算 量 . 
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为 了 进一步 减 小 计算 量 和 存储 量 , 类 似 于 3.3.2 小 节 感 知 准则 函数 中 介绍 的 单 
样本 修正 法 那样 ， 可 以 把 样本 看 成 一 个 无 限 重复 出 现 的 序列 而 逐个 样本 加 以 考虑 . 
这 样 , 式 (3.5.12) 的 算法 可 修改 为 


| v(1)， ”任意 


vk+1)= vk) + pxr(be — vk)T yr)y* (3.5.14) 


其 中 , y* 是 使 v(k)Ty* 关 bx 的 样本 . 这 样 的 先 代 一 直 进行 到 对 于 原样 本 集 Y1, Y2, 
YN 的 一 次 循环 中 不 再 出 现 被 错 分 的 样本 即 wv(k)Tyk = bi 为 止 , 这 时 ， 迭代 停止 得 
到 解 向 量 v* 

由 于 br 是 任意 给 定 的 正常 数 一 般 说 来 , 要 使 v(k)Ty* = bk 成 立 几乎 是 不 可 
能 的 , 因而 上 述 和 迭代 修正 过 程 永远 不 会 终止 , 所 以 必须 让 py 随 着 的 增 大 而 减 小 ， 
以 保证 收敛 . 一 般 选 择 px = pi/k, 此 时 式 (3.5.14) 的 算法 收敛 于 满意 的 解 向 量 we 
该 算法 是 对 MSE 准则 采用 梯度 下 降 法 的 一 个 修正 , 通常 称 为 Widrow_Hoff 算法 ， 


3.5.3 ”随机 MSE 准则 函数 及 其 随机 逼近 算法 “ 


前 面 讲 到 的 算法 都 是 针对 确定 性 样本 集 的 , 但 实际 上 样本 总 是 随机 抽取 的 , 因 

此 应 把 每 个 样本 都 看 作 抽 自 某 个 总 体 分 布 的 随机 变量 , 即 样本 集 是 随机 样本 集 、 为 

此 , 我 们 需要 定义 一 个 随机 的 准则 函数 , 并 用 处 理 随机 最 优化 问题 的 随机 甬 近 算法 

来 求解 . 

假设 样本 是 按 下 述 方式 独立 抽取 的 , 即 先 按 概率 (wi), 选择 一 个 类 别 状态 , 再 

按 p(zlwi) 选择 一 个 样本 =, 每 个 样本 都 有 一 个 类 别 标志 , 用 z 来 表示 . 对 于 二 类 问 
题 有 

_ +l ， 对 于 zeul 

2 一 | _1 对 于 ww (3.5.15) 


这 样 就 得 到 一 个 无 穷 的 数据 序列 (zu 2) (za 22),…, (zk, Zk),… 在 z 已 知 的 情况 
下 ， 随机 变量 z(z) 的 条 件 概 率 为 


| q(z = llz) = g(wilz) 


qz = -llz) = goal (3.5.16) 


由 于 z(z) 仅 取 二 值 , 所 以 2(z) 的 条 件 期 望 为 
El[z(2)] 一 > ，zg(zlz) = q(walz) - g(wslz) = gp(z) (3.5.17) 


上 式 说 明 z(z) 的 条 件 期 望 是 贝 叶 斯 判别 函数 gs(z) (参见 式 (2.1.22)). 


我 们 先 回忆 一 下 确定 性 样本 情况 下 的 MSE 准则 函数 , 即 式 (3.5. 2) 


Js(v) = ||Yv — bl = Yozy - bm)2. 


7 一 工 


当 取 5 = ww 时 , 所 得 线性 判别 函数 vTy 以 最 小 均 方 误差 逼近 贝 叶 斯 判别 函数 
gB(zZ)( 见 3.5.1 小 节 ). 
对 于 随机 样本 , 我 们 可 以 类 似 地 定义 MSE 准则 函数 如 下 : 


Jsr(v) = EF [(v'y — b)’| 


当 令 5 一 z 时 , 有 
JsR(v)=E [(w yy 一 2)2] (3.5.18) 
可 以 证 明 , 对 应 于 使 Jsra(v) 极 小 化 的 v* 的 随机 线性 判别 函数 gsR(z) = v*™y, 仍 
然 以 最 小 均 方 误差 逼近 贝 叶 斯 判别 函数 gp(z). 
有 了 随机 准则 函数 Jsr(v), 问题 就 变 成 如 何 求 出 它 的 极 值 解 v*. 求 Jsr(v) 对 
于 wv 的 梯度 并 令 其 等 于 零 , 得 


VJjsa(v) =2E |[(v'y—z(z))y| =0 
从 而 得 到 问题 的 解 向 量 v*: 
v=E[(yy")] Elz(z)y (3.5.19) 
由 上 式 计算 解 向 量 v* 是 不 容易 的 , 可 利用 最 优化 算法 中 的 牛顿 法 , 其 途 代 公式 为 
DvDIVI 
式 中 , DD 为 准则 函数 .7 的 二 阶 偏 导数 矩阵 , 这 里 


D =2E [yy'| 
因此 , 使 Jsrn(v) 极 小 化 的 牛顿 迭代 公式 为 
v(k+1)=v(k)+ [Eyy™)] [EC(z— vry)y). (3.5.20) 
若 用 样本 估计 代替 期 望 值 计 算 , 并 利用 类 似 于 求 样本 均值 时 的 迭代 算法 , 可 令 
R(E+1) = RK) + yy (3.5.21) 


式 (3.5.21) 可 看 作 计 算 D 的 迭代 公式 . 可 以 证 明 


R(E+1)= RE)— Rw lu (3.5.22) 
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把 上 式 中 的 R(k 十 1)-1 视 为 万 -1， 则 可 得 到 一 种 改进 的 随机 逼近 迭代 算法 公式 : 
vk+1)= vk) + RE 1) (Zk — Vk)T yn) yy. (3.5.23) 


这 种 算法 得 到 的 权 向 量 序列 {vw(k)} 同样 收敛 于 最 优 解 向 量 wv*, 且 收 全 速度 较 快 
但 迭代 过 程 中 每 一 步 计 算 量 较 大 . 


3.6 多 类 问题 


本 章 前 几 节 讨论 了 二 类 问题 的 线性 判别 方法 , 然而 实际 上 经 常 遇 到 样本 的 多 类 
分 类 问题 . 因此 必须 研究 多 类 问题 的 线性 判别 方法 . 

利用 线性 判别 函数 设计 多 类 分 类 器 有 多 种 途径 

方法 (1) 一 一 把 c 类 问题 化 为 c 个 二 类 问题 . 

通过 一 个 线性 判别 函数 把 一 个 类 型 的 样本 与 其 他 类 别 区 分 开 来 , 对 于 c 个 类 
别 , 需 建立 e 个 线性 判别 函数 , 即 


gl(Z) 一 0 二 ti， l=1,2,...,c (3.6.1) 
其 中 每 一 个 判别 函数 有 如 下 功能 : 


| g(x) > 0, 则 gw € wi 


1=1,2,...,¢ 3.6.2 
gz) 和 0， 则 zz ¢w, (3.6.2) 


判别 规则 为 
gi(x) > 0, 
gm(z) < 0, m= 1,2,:...,c, 和 天; 


这 种 方法 的 图 示 见 图 3.9(a), 这 时 , 位 于 图 中 LRi, TR, TRs, IRs 区 域 的 样本 点 分 类 
器 无 法 确定 其 类 别 . 原因 是 式 (3.6.3) 确定 的 wi 可 能 会 与 wm(m = 1,2,...,c,m #1) 
相互 重 粥 , 其 重 到 区域 究竟 属于 ww 还 是 ww 无 法 判别 ; 还 可 能 出 现 不 属于 任何 类 
别 的 区 域 (TR4). 


则 ze wi. (3.6.3) 


图 3.9 多 类 问题 转化 为 多 个 二 类 问题 的 两 种 情况 
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方法 (2) 一 一 把 c 类 问题 化 为 c(c 一 1)/2 个 二 类 问题 . 

对 c 个 类 型 中 任意 两 个 类 型 ww 和 wm 建立 一 个 判别 函数 gi (zx), 它 将 两 个 类 
型 w 和 wm 区 别 开 , 但 对 其 他 的 类 型 不 提供 任何 信息 . 因为 c 个 类 型 中 任意 两 个 
类 型 w 和 wm 的 组 合 数 为 c(c 一 1)/2 个 , 所 以 共 需 建立 c(c 一 1)/2 个 判别 函数 , 即 


gim(z) = WinT+umo, bm=1,2,,c, l#m (3.6.4) 

它 具 有 性 质 

9im( 了) 一 —gmi(T), 
和 如 下 功能 : 
gm(z) > 0, 则 2 € wm 
| oo <0 则 ae (3.6.5) 
其 判别 规则 为 

T Ew 当 gm(z) >0m=1,2,:...,c, lm (3.6.6) 


即 为 了 得 到 z € wi 的 结论 , 必须 考察 c 一 1 个 判别 函数 gm(z),mm = 1,2,…,c,lm. 
这 种 方法 的 图 示 见 图 3.9(b). 同样 , 这 时 会 有 一 个 区 域 同时 属于 两 个 以 上 的 类 型 , 即 
图 中 标记 为 IR 的 区 域 , 该 区 域 的 样本 点 分 类 器 无 法 确定 其 类 别 . 

方法 (3) 一 一 最 大 值 判别 规则 

方法 (1) 和 (2) 的 共同 缺点 是 某 一 部 分 区 域 中 的 样本 点 无 法 分 类 . 这 一 缺点 在 
方法 (3) 中 得 到 了 克服 . 


定义 c 个 判别 函数 
gz)=wir+wo, 1=1,2,:..…,c (3.6.7) 
判别 规则 为 
gt(z) > gm(z), m=1,2, om 天 则 =ew (3.6.8) 


这 样 的 分 类 器 称 为 线性 机 器 , 它 把 特征 空间 分 割 为 c 个 决策 区 域 Ri, Ro,…, R。, 样 
本 z 被 归 类 为 %i(z) 在 e 个 判别 函数 中 取 极 大 值 的 那个 类 别 1. 这 种 方法 的 优点 在 
于 不 存在 不 确定 区 . 如 果 hR 与 Rm 相 邻 , 则 它们 的 分 界面 就 是 超 平面 Hi 的 一 部 
分 , 其 定义 为 
gi(£) = gm(z) (3.6.9) 
或 . 
(wi — Wm) T+ (Wio — wmo) = 0. (3.6.10) 


3.6 多 类 问题 .67-: 


由 此 可 知 , (wi 一 wm) 是 玉 " 的 法 向 量 , 从 = 到 超 平面 Hi 的 代数 距离 为 


_ gp) — gm(T) 
r= or wm (3.6.11) 
因此 , 对 线性 机 器 来 说 , 重要 的 是 权 向 量 的 差 而 不 是 权 向 量 本 身 。 这 时 , 应 该 有 
c(c -~ 1)/2 个 超 平面 , 但 在 实际 问题 中 出 现在 分 界面 上 的 超 平面 的 个 数 往往 少 于 
c(c 一 1)/2 个 . 图 3.10 是 在 二 维特 征 空 间 情况 下 的 三 类 和 五 类 问题 线性 决策 面 的 示 
意图 . 


(a) (b) 
图 3.10 多 类 线性 决策 面 的 例子 
{a) 三 类 ; (b) 五 类 
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前 面 我 们 讨论 了 用 线性 判别 函数 设计 分 类 器 的 方法 ， 但 是 大 量 实际 的 模式 识 
别 问题 并 不 是 线性 可 分 的 , 比如 当 两 类 样本 的 分 布 具有 多 峰 性 质 并 相互 交错 时 , 简 
单 的 线性 判别 函数 往往 会 导致 较 大 的 分 类 错误 . 这 种 情况 下 就 需要 采用 非 线性 分 类 
器 

从 本 章 开始 我 们 来 讨论 几 种 常用 的 、 特 别 是 在 高 能 物理 实验 数据 分 析 中 常用 
的 非 线性 分 类 方法 : 


4.1 超 长 方 体 分 割 法 


我 们 首先 讨论 一 种 对 于 二 类 问题 的 最 简单 的 非 线性 判别 方法 一 一 超 长 方 体 分 
割 法 , 它 可 以 认为 是 决策 树 判 别 方法 的 一 种 最 简单 的 特例 , 但 是 由 于 它 简单 、 易 实 
行 的 特点 , 在 实验 数据 的 多 元 分 析 中 , 特别 是 高 能 物理 实验 数据 分 析 中 , 仍然 有 比 
较 广 泛 的 应 用 . 


4.1.1 超 长 方 体 分 割 法 的 基本 思想 


在 本 节 的 讨论 中 , 为 了 不 失 一 般 性 , 我 们 把 样本 分 为 信号 和 本 底 两 个 类 别 , 信 
号 指 实验 中 所 要 研究 的 过 程 的 事例 样本 , 所 有 信号 以 外 的 样本 都 属于 本 底 样本 . 

超 长 方 体 分 割 法 不 是 企图 用 一 个 决策 规则 把 两 类 样本 一 次 分 开 , 而 是 采用 分 级 
的 方法 来 解决 分 类 问题 . 它 的 基本 思想 如 图 4.1 所 示 . 首先 要 根据 分 类 问题 的 具体 
要 求 选择 适当 的 特征 向 量 z = (zi,zz，……,zn)T, 特征 向 量 的 每 一 个 变量 x; 都 是 实 
蛤 的 直接 或 间接 测量 值 变 量 , 而 且 具 有 区 分 信号 和 本 底 的 能 力 , 也 就 是 说 , 该 变量 
的 概率 密度 分 布 对 于 信号 样本 和 本 底 样 本 有 明显 的 差别 , 能 够 用 阐 值 zp 把 变量 
域 划分 为 两 个 区 域 : 类 信号 区 和 类 本 底 区 , 在 类 信号 区 中 信号 事例 样本 占有 比较 大 
的 比例 ; 类 本 底 区 中 则 本 底 事例 样本 占有 比较 大 的 比例 .把 待 分 类 样本 集 每 个 样 
本 的 特征 向 量 的 各 个 特征 的 测量 值 逐 个 输入 分 类 器 , 分 类 器 按 每 个 变量 zx; 的 值 将 
它 归 类 到 类 信号 区 和 类 本 底 区 , 如 若 第 ; 个 变量 z; 被 归 入 类 信号 区 , 则 再 利用 变 
量 zj41 的 值 对 样本 分 类 , 直到 用 变量 z。 的 值 将 样本 归 类 为 止 . 一 个 所 有 变量 值 
(zj = 1,2,…,n) 都 被 归 入 类 信号 区 的 样本 被 分 类 器 最 终 判 别 为 信号 样本 , 其 他 
所 有 样本 被 判 为 本 底 样本 . 也 就 是 说 , 只 要 对 任何 一 个 变量 的 判别 上 被 归 入 类 本 底 
区 , 该 样本 就 被 分 类 器 判别 为 本 底 事 例 样本 . 
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2 判 为 信号 事例 


Zz 判 为 本 底 事例 


图 4.1 超 长 方 体 分 割 法 区 分 二 类 样本 的 示意 图 
其 中 zi € zis 表示 观测 值 =; 落 入 分 类 器 规定 的 特征 向 量 第 i 个 变量 的 信和 号 区 内 


假定 信号 事例 样本 集 的 样本 总 数 为 Ns, 经 过 分 类 器 后 被 判 为 信号 的 样本 数 为 
nss, 则 该 分 类 器 对 于 信号 事例 的 选择 效率 为 


ESS 一 SS (4.1.1) 


本 数 为 nsp, 则 该 分 类 器 的 信号 误 判 率 为 


gsB = 得， (4.1.2) 
显然 , 高 的 信号 选择 效率 和 低 的 误 判 率 是 我 们 追求 的 目标 . 
这 种 方法 把 每 个 变量 x; 的 值 域 看 成 是 超 长 方 体 第 ; 根 轴 的 边 长 , 将 每 一 根 边 
长 分 割 为 类 信号 区 和 类 本 底 区 , 所 以 形象 地 称 为 超 长 方 体 分 割 法 . 


4.1.2” 超 长 方 体 分 割 法 中 阅 值 的 确定 

从 以 上 分 类 过 程 我 们 可 以 看 到 , 这 种 分 类 器 设计 最 重要 的 问题 是 怎样 将 每 个 变 
量 划 分 为 类 信号 区 和 类 本 底 区 , 或 者 说 , 怎样 确定 阔 值 向 量 pth = (zih zh，.…. ,Ti )T, 
对 于 一 个 待 分 类 的 实际 的 样本 集 , 如 果 有 比较 充分 的 先 验 知识 , 能 够 构造 一 个 分 布 
相近 的 “模拟 ”样本 集 , 并 且 该 样本 集 的 样本 数量 足够 大 , 那么 可 以 利用 这 个 模拟 
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样本 来 确定 赋 值 向 量 . 这 种 情况 在 粒子 物理 实验 中 具有 典型 性 . 如 研究 正 负 电子 对 
撞 产 生 的 末 态 f: 


efe- 一 (过 程 1,2,.…,k) 一 了 


其 中 过 程 1 是 我 们 感 兴趣 的 信号 , 其 余 过 程 均 为 本 底 . 对 于 所 有 这 些 过 程 产 生 的 末 
态 如 果 均 有 已 知 的 理论 模型 以 一 定 的 精度 加 以 描述 , 并 且 各 个 过 程 产生 末 态 f 的 
相对 强度 亦 为 已 知 , 那么 , 就 可 以 用 蒙特 卡 罗 方法 构造 出 一 个 与 实际 数据 样本 分 布 
相近 的 “模拟 ”样本 集 , 并 且 该 样本 集 的 样本 数量 原则 上 可 以 无 限 地 产生 . 

有 了 这 样 的 模拟 样本 集 , 可 以 得 到 每 个 变量 的 信号 和 本 底 样本 的 近似 边沿 概率 
密度 

pj rar = ps/ 

式 中 , 上 标 $ 表示 信号 , B 表示 本 底 . 利用 信号 和 本 底 样本 的 zj 的 边沿 概率 密度 的 
”差别 , 容易 确定 阐 值 ztt 值 . 如 果 信 号 和 本 底 样本 的 z; 的 边沿 概率 密度 是 分 离 的 ， 
如 图 4.2 所 示 , 那么 zt 可 以 取 为 分 离 区 内 的 任意 zj 值 . 这 时 判 选 规则 为 zy > z? 
归 入 类 信号 区 , 否则 归 入 类 本 底 区 . 该 判 据 对 于 信和 号 事例 的 选择 效率 为 ess = 1, 将 
本 底 事 例 误 判 为 信号 事例 的 误 判 率 为 esp = 0. 


(Zji|Z1， 111 ;Tn EE (一 ce， 十 oo)) 。 (4.1.3) 


4.2 阔 值 xP 的 确定 : p; mar 与 pjmar 分 离 的 情形 


但 是 , 一 般 情形 下 只 。。. 与 到。。。 是 相互 重 须 而 不 相 分 离 的 , 如 图 4.3(a) 所 示 . 
这 种 情形 下 , 粒子 物理 实验 中 往往 要 求 “ 信 号 事例 ”的 判 选 规则 使 得 对 于 事例 的 先 
择 具有 最 大 的 “信号 显著 性 * 信号 显著 性 定义 为 


.一 "ss 
Saie 一 | (4.1.4) 
式 中 , nss,nss 分 别 为 经 过 该 判 选 规 则 后 类 信号 区 内 的 信号 和 本 底 事例 数 . 信号 显 
著 性 越 高 , 类 信号 区 内 的 信号 越 清 晰 . 假定 模拟 样本 集 在 施加 该 判 选 规则 前 的 信号 
和 本 底 事 例 数 分 别 为 Ns 和 Ns, 该 判 选 规则 对 于 信号 和 本 底 事 例 的 “信号 ”选择 


4.1 超 长 方 体 分 割 法 .7 了 1 . 


了 


效率 为 ess 和 esp, 当 总 事例 数 N = Ns + Ne 足够 大 时 ， 信号 显著 性 可 用 下 式 确 定 : 


MN 
Ssig 一 sss ___ (4.1.5) 
VessNs + EsBNB 
ESS 
B 
Ess 
0 
所 0 1 ESB 
(b) (oj 


图 4.3 阔 值 x 六 的 确定 : pj sr 与 ps 重 和 登 的 情形 
(a) 信号 和 本 底 样本 的 边沿 概率 密度 2 mar 与 pF 了 mar;(b) 信号 和 本 底 事 例 的 “信号 ”选择 效率 sss 和 
ESB 与 阐 值 zh 间 的 关系 曲线 ; (cy sss 与 sgp 间 的 关系 曲线 


将 esp 视 为 sss 的 函数 , Soig 的 极 大 值 可 由 求 方程 S ceai 一 0 的 根 得 到 ， 其 解 为 


ESS desB 
一 一 一 | ANV 一 Ag | . 4.1.6 
ESB 2Ns ( 3 dess ) ( ) 


由 图 4.3(a) 的 信号 和 本 底 的 条 件 概率 密度 pg 。。. 与 p9,,,, 容易 求 得 信号 和 本 
底 事 例 的 选择 效率 sss 和 ssa 与 阔 值 zh 间 的 函数 关系 , 如 图 4.3(b) 所 示 , 进 一 
步 可 得 到 ess 与 es 间 的 函数 关系 , 如 图 4.3(c) 所 示 , 并 可 求 得 Te 与 ess 的 函 
数 关系 . 这 样 从 图 4.3(c) 的 曲线 就 能 找 出 满足 式 (4.1.6) 的 sss 和 sss 值 再 由 图 
4.3(b) 求 得 Sus 的 极 大 值 对 应 的 阔 值 zt 

也 可 考虑 求 量 Has -cssSu 的 极 大 信 来 确定 阔 值 zt 这 意味 着 判 选 规则 要 
求 信号 选择 效率 和 显著 性 的 乘积 达到 极 大 , 即 六 值 zh 的 选择 不 但 考虑 到 有 尽 可 能 
高 的 信号 显著 性 , 还 考虑 到 有 尽 可 能 高 的 信号 选择 效率 ; 因为 只 有 高 的 信号 显著 性 
而 信号 选择 效率 很 低 , 并 不 是 一 个 好 的 事例 分 类 器 . 求 方程 ee =- 0 的 根 , 其 解 
为 


4NB dess 
Hsig 的 极 大 值 对 应 的 阐 值 z+ 可 用 与 前 述 步骤 类 似 的 方法 和 式 (4.1.7) 得 到 . 
4.1.3 超 长 方 体 分 割 法 的 优 缺 点 及 其 改进 


”” 超 长 方 体 分 割 法 的 显著 优点 是 设计 分 类 器 十 分 简单 ， 从 以 上 分 类 过 程 我 们 可 
以 看 到 , 这 种 分 类 器 设计 最 重要 的 问题 是 怎样 将 每 个 变量 划分 类 信和 号 区 和 类 本 底 


d 
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区 , 或 者 说 , 怎样 确定 阔 值 向 量 wt = (zi z 如 ,zth)T， 只 要 有 了 足够 数量 的 信 
号 和 本 底 事 例 的 模拟 样本 集 , 可 以 由 4.1.2 小 节 所 述 的 方法 确定 zx 值 . 其 次 , 分 类 
器 的 设计 有 很 大 的 灵活 性 , 只 要 zf 值 相同 , z; 出 现 的 先后 次 序 不 同 并 不 改变 分 类 
器 的 信和 号 选择 效率 sss. 

但 超 长 方 体 分 割 法 的 缺陷 也 很 明显 ， 首 先 , 它 实际 上 是 一 系列 的 单 变量 分 析 ， 
没有 用 到 多 个 变量 的 组 合 信 息 , 所 以 还 不 是 真正 意义 上 的 多 元 变量 分 析 方 法 . 只 要 
对 任何 一 个 变量 的 判别 上 被 归 入 类 本 底 区 , 该 样本 就 被 归 类 为 本 底 , 实际 上 被 归 入 
类 本 底 区 的 样本 其 中 有 一 部 分 是 信号 样本 , 只 不 过 需要 通过 其 他 几 个 变量 或 变量 组 
合 才能 判别 出 来 . 所 以 超 长 方 体 分 割 法 不 可 能 将 需要 变量 组 合 才能 判别 出 来 的 信 
号 样本 判定 为 信号 , 这 就 使 得 它 的 信和 号 选择 效率 sss 往往 是 比较 低 的 . 对 于 待 分 类 
样本 集中 信号 样本 数 比 例 本 来 就 比较 小 的 情况 , 这 一 缺陷 尤其 明显 . 

第 二 个 缺点 是 对 于 选 定 的 特征 向 量 z = (z1, 7z2,… ,zn)T, 要 确定 一 组 最 优 的 
阐 值 向 量 zt = (z 扣 ,7z 如 ,zth)T 十 分 困难 . 一 个 好 的 超 长 方 体 分 割 法 分 类 器 , 其 
基本 原则 是 一 个 待 分 类 的 样本 集 经 过 该 分 类 器 后 , 在 最 后 一 个 变量 zn 的 类 信号 区 
内 的 样本 数 mw( 即 分 类 器 判别 为 信号 事例 的 样本 数 ) 中 , 能 包含 尽 可 能 多 的 信号 事 
例 样本 , 而 本 底 事例 样本 数 尽 可 能 地 少 , 使 得 在 这 一 区 域内 信和 号 事例 数 对 于 本 底 事 
例 数 有 比较 高 的 信号 显著 性 . 但 是 对 于 选 定 的 特征 向 量 x = (zi,za,:…,zn)T, 要 确 
定 一 组 最 优 的 阔 值 向 量 zt = (xth, zx 纪 ,… ,zt)7 使 得 信号 显著 性 达到 极 大 却 十 分 
困难 . 原因 在 于 在 利用 信号 和 本 底 事例 的 训练 样本 确定 x; 的 阐 值 z 妨 时 , 方便 的 
做 法 是 利用 信号 和 本 底 样 本 的 式 (4.1.3) 所 示 的 zj 的 边沿 概率 密度 pj; mar 的 差别 
来 确定 最 佳 zh 值 (如 使 得 由 该 xz 值 确定 的 类 信号 区 内 的 信号 显著 性 达到 极 大 ). 
但 在 超 长 方 体 分 割 法 中 , 应 该 用 信号 和 本 底 样本 的 xz; 的 条 件 概率 密度 

Djpen = PS/ 
的 差别 来 确定 最 佳 z 镶 值 , 式 中 zk € Si 表示 zh 被 归 入 类 信号 区 . 所 以 用 pjmar 
确定 的 最 佳 闵 值 向 量 并 不 是 超 长 方 体 分 割 法 的 真正 的 最 佳 阔 值 向 量 z 志 . 

第 三 个 缺点 是 特征 向 量 x 的 n 个 变量 是 否 都 需要 用 来 作 分 类 判别 往往 是 不 明 
确 的 , 可 能 其 中 的 一 些 变 量 对 于 不 同样 本 的 分 辨 能 力 已 被 其 他 变量 所 用 盖 因而 是 不 
必要 的 . 

超 长 方 体 分 割 法 的 以 上 缺点 可 以 有 以 下 途径 进行 改进 . 

(1) 利用 条 件 概率 密度 确定 阔 值 向 量 zt 

如 果 已 有 足够 数量 的 信号 和 本 底 事 例 的 模拟 样本 集 ， 那 么 可 以 用 来 构造 式 
(4.1.8) 所 示 的 信号 和 本 底 样本 的 zj 的 条 件 概 率 密度 p$ .。, 和 p3.,, 利用 条 件 概率 
密度 p56, 和 p36。 的 差别 , 来 确定 阔 值 zt 值 . 在 模拟 样本 集 与 实际 数据 样本 集 


(Z7|21 E HS1,.…- ,Tj—1 E Sj—1; Tj+1) ,Tn EE (一 ce， 十 00)) (4.1.8) 


4.1 超 长 方 体 分 割 法 ,73 . 


分 布 相近 的 条 件 下 , 这 样 确 定 的 阔 值 接近 最 佳 阀 值 向 量 x 路. 但 在 实际 操作 中 , 逐 
级 计算 条 件 概 率 密度 是 相当 麻烦 的 一 件 事 . 

(2) 在 某 些 节点 对 若干 个 特征 变量 用 线性 判别 函数 进行 判别 

超 长 方 体 分 割 法 的 基本 框架 中 , 每 个 节点 仅 用 一 个 特征 变量 进行 判别 . 但 这 不 
是 强制 性 的 要 求 . 完全 可 以 在 任何 一 个 节点 对 于 已 知 存在 线性 关联 的 若干 个 特征 
变量 利用 第 三 章 所 述 的 任何 一 种 线性 判别 方法 进行 判别 . 这 在 超 长 方 体 分 割 法 的 架 
构 中 非常 容易 实现 , 并 且 能 有 效 地 提高 信号 判 选 效率 , 降低 误 判 率 . 

(3) 对 样本 数据 z = (z1, za …,zn)7 首先 进行 主 成 分 分 析 

如 果 对 样本 数据 = = (zi, za,……,zn)T 首先 进行 主 成 分 分 析 得 到 新 特征 向 量 数 
据 y = (Yi,y2,… ,yn) ,然后 用 超 长 方 体 分 割 法 对 新 特征 向 量 y 进行 信号 和 本 底 
样本 的 分 类 , 则 上 面 所 述 的 这 些 缺 陷 在 一 定 程 度 上 能 得 到 克服 . 首先 它 利 用 了 原 特 
征 线性 组 合 的 信息 , 有 效 地 提高 了 信号 的 选择 效率 . 其 次 , 由 于 各 个 y; 之 间 的 线性 
相关 系数 为 0, 利用 信号 和 本 底 事例 的 训练 样本 得 到 每 个 变量 的 近似 边沿 概率 密度 


Djmar = Pp (Yi Yj Yj Yn E (一 oo 十 co)). (4.1.9) 


来 确定 阔 值 向 量 yt = (yP,y 扫 ,… ,yt) 比较 接近 于 最 优 的 阔 值 向 量 ， 最 后 ,如 
果 最 后 几 个 主 成 分 的 方差 贡献 率 足 够 小 , 则 我 们 可 以 作 降 维 处 理 , 既 减 小 了 计算 量 ， 
又 不 降低 分 类 器 对 信号 样本 的 判别 能 力 . 对 样本 数据 z = (zl x2,…, zn)T 进行 主 
成 分 分 析 并 不 需要 各 特征 变量 之 间 是 否 线性 相关 的 知识 , 因此 在 实际 应 用 中 比 第 二 
种 方法 更 易于 实现 . 


4.1.4 ” 超 长 方 体 分 割 法 用 于 高 能 物理 实验 分 析 


作为 一 个 例子 , 我 们 简要 地 说 明 超 长 方 体 分 割 法 用 于 研究 e+e- 对 撞 中 y(25)- 
pB 反应 中 怎样 从 大 量 本 底 事 例 中 判 选 出 信号 事例 ta， 北京 谱 仪 国际 合作 研究 组 
(BES Collaboration) 利用 e+e- 对 撞 在 质心 系 能 量 EE. = 3.686GeV 处 产生 了 14 兆 
w(2S) 粒子 , 由 于 它 衰变 为 p 信号 事例 的 分 支 比 ( 即 概率 ) 仅 为 (3.36 土 0.27) x 10-4 
可 见 排除 本 底 的 要 求 十 分 高 ， 这 种 情况 在 粒子 物理 实验 中 是 相当 典型 的 ， 显 而 易 
见 , 如 果 要 研究 分 支 比 更 低 的 衰变 过 程 , 排除 本 底 的 要 求 必 定 更 为 苛刻 . 

首先 要 选择 适当 的 特征 向 量 z = (zi,za…,zn)T,， 特 征 向 量 的 每 一 个 变量 
zj 都 是 实验 的 直接 或 间接 测量 值 变量 , 而 且 具 有 区 分 信号 和 本 底 的 能 力 . 根据 
Y(28) 一 pB 反应 与 其 他 本 底 事 例 的 不 同 特性 ， 我 们 用 来 选择 信号 事例 的 事例 判 
选 规则 用 到 了 以 下 的 变量 . 

1. 带电 径 迹 数 条 件 Nc=2 

带电 径 迹 数 条 件 Nc 是 北京 谱 仪 子 探测 器 主 漂移 室 确定 的 特征 量 之 一 , 它 表 
不 主 漂移 室 测 到 的 带电 径 迹 条 数 . 信和 号 事例 y(28) -， pp 末 态 只 有 pp 两 个 带电 粒 
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子 , 这 一 判 选 条 件 排 除了 所 有 末 态 带电 粒子 数 不 等 于 2 的 大 量 本 底 . 该 条 件 物理 上 
不 造成 信号 事例 的 效率 损失 , 但 主 漂移 室 的 有 效 探测 立体 角 约 为 4r 立体 角 的 85%， 
因此 存在 探测 器 的 有 效 探测 立体 角 导 致 的 信号 事例 的 效率 损失 . 凡 满 足 本 级 判 选 条 
件 的 事例 归 入 本 级 判 选中 的 类 信号 事例 (下 同 , 不 再 重复 ). 

2. 径 迹 飞行 时 间 条 件 

对 于 每 根 径 迹 要 求 


|tm 一 如 | < [tm tk| ? |tm tr| 3 [tm t| 3 tm — tel » 


式 中 , tm 是 子 探测 器 飞行 时 间 计 数 器 (TOF) 测 到 的 实际 飞行 时 间 ; ,i = p, K, x ne 
是 假设 径 迹 是 粒子 i, 根据 粒子 的 能 量 (等 于 质心 系 能 量 的 一 半 1.843GeV), 对 撞 中 
心 到 TOF 系统 的 飞行 长 度 , 以 及 粒子 i 的 质量 计算 出 来 的 飞行 时 间 . 显然 , 如 果 是 
信号 事例 , |tm -如 | 应 该 接近 于 0, 且 比 其 他 几 个 时 间 差 值 要 小 . 因此 该 判 选 条 件 能 
够 排除 大 量 ete-,hth-,xntn-,K+K- 两 体 末 态 的 本 底 事例 , 而 对 信号 事例 的 判 选 
效率 不 造成 物理 上 的 损失 . 但 由 于 飞行 时 间 计 数 器 的 有 效 探测 立体 角 为 4r 的 76%%， 
因此 存在 探测 器 的 有 效 探测 立体 角 导 致 的 信号 事例 的 效率 损失 . t,i = p,K, ze 
的 计算 中 需要 用 到 径 迹 从 对 撞 中 心 到 击 中 TOF 的 飞行 长 度 , 它 是 根据 该 径 迹 在 主 
漂移 室 中 的 飞行 轨迹 推算 出 来 的 , 因此 该 判 选 条 件 实际 上 用 到 了 两 个 特征 变量 , 即 
飞行 时 间 和 飞行 长 度 . 

3. 两 径 迹 飞行 时 间 差 条 件 At < 4ns 

该 条 件 用 以 排除 宇宙 线 本 底 . At = |t， -t_| 表示 TOF 计数 器 测 到 的 两 根 径 
迹 的 飞行 时 间 之 差 , 所 以 该 条 件 用 到 了 t,t_ 两 个 特征 量 . 对 于 ete- 对 擅 产 生 的 
两 个 动量 相等 的 带电 粒子 以 相反 方向 飞 出 的 事例 , At = 0 ; 对 于 穿 过 对 撞 中 心 的 字 
宙 线 事例 , At = 8ns. 由 于 测量 误差 , 实际 的 At 是 以 0 和 土 8ns 为 中 心 值 的 分 布 , 如 
图 4.4 所 示 . 该 条 件 几乎 能 排除 所 有 的 宇宙 线 本 底 , 对 于 信和 号 事例 的 选择 效率 几乎 
没有 物理 的 损失 ， 

4. 径 迹 背 对 背 条 件 8 < 5° 

信号 事例 w(2S) 一 p5 末 态 p5 两 个 带电 粒子 以 相反 方向 飞 出 , 因此 物理 上 两 
条 带电 径 迹 间 的 夹 角 9 应 为 0. 9 需要 从 两 条 径 迹 的 方向 参数 求 出 , 所 以 该 条 件 用 
到 了 两 组 特征 参数 . 图 4.5 是 w(2S) ~ p5 信和 号 的 蒙特 卡 罗 模 拟 训练 样本 和 本 底 的 
蒙特 卡 罗 模 拟 训 练 样本 (信号 事例 数 与 本 底 事例 数 已 经 正确 地 归 一 化 了 , 即 与 真实 
数据 中 的 比例 一 致 ) 的 9 分 布 图 . w(2S) 一 p5 的 9 大 于 0 是 由 于 带电 径 迹 探测 和 
重建 导致 的 径 迹 方向 误差 以 及 粒子 的 多 次 库仑 散射 造成 的 方向 误差 . 区 分 信号 和 
本 底 的 阔 值 选 为 5°. 该 条 件 对 信号 事例 的 判 选 效 率 损失 很 小 , 但 排除 了 大 量 不 满足 
背 对 背 条 件 的 两 径 迹 末 态 本 底 事 例 . 


4.1 超 长 方 体 分 割 法 . 75 . 


010 eo 0 2 4 6 8 10 
TI—T/ns 


4.4 两 带电 径 迹 飞行 时 间 差 分 布 


— MC: 中 一 后 
十 MC:Backgrounds 


cut 
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图 4.5 ” 背 对 背 径 迹 飞 行 方向 夹 角 的 分 布 
直方 图 代表 yw(2S) 一 p5 信号 的 蒙特 卡 罗 模 拟 训练 样本 , 十 字 叉 代表 本 底 的 蒙特 卡 罗 模 拟 训 练 样本 .信和 号 
事例 数 与 本 底 事例 数 已 经 正确 地 归 一 化 . 注意 y 轴 是 对 数 坐 标 


经 过 以 上 判 选 条 件 , 实验 数据 样本 中 除 信和 号 事例 外 , 只 余下 少量 下 述 的 背 对 背 
两 径 迹 本 底 实例 : 
ere —ete ,Wh ,nin ,KtiK-, 


WV(2S8) -ete ,ph ,ntn ,KK., (4.1.10) 


5. 带 正 电 粒 子 沉积 能 量 条 件 <0.75GeV 
子 探测 器 电磁 量 能 器 测量 粒子 在 其 中 的 沉积 能 量 . 在 北京 谱 仪 的 情况 下 , 测 得 


.76 . 第 四 章 ”决策 树 判 别 


的 正 负电 子 的 沉积 能 量 的 中 心 值 与 其 实际 能 量 相近 , 而 测 得 的 质子 的 沉积 能 量 的 中 
心 值 比 它 的 实际 能 量 小 得 多 . 图 4.6 所 示 为 带 正 电 粒 子 沉积 能 量 的 分 布 , 其 中 直方 
图 代表 w(2S) -pp 信号 的 蒙特 卡 罗 模 拟 训练 样本 中 的 p 的 沉积 能 量 , 集中 于 低能 
端 .十 字 叉 代表 实验 数据 经 过 事例 判 选 条 件 后 选 出 的 事例 中 带 正 电 粒 子 的 沉积 能 
量 , 其 中 低能 端的 分 布 来 自 于 w(2S) 一 pp 信号 事例 的 贡献 , 所 以 与 蒙特 卡 罗 模 拟 的 
结果 十 分 接近 , 高 能 端的 突起 来 自 于 本 底 事例 ete- 一 ete-,w(2S) 一 ete” 中 的 et 
的 沉积 能 量 . e+ 的 实际 能 量 等 于 或 接近 质心 系 能 量 Eom 的 一 半 1.843GeV, 由 于 电 
磁 量 能 器 的 能 量 分 辨 较 差 (AE/E = 0.22/VE(GeV)), 所 以 形成 以 1.843GeV 为 中 心 
的 一 个 宽 的 分 布 . 判 选 条 件 妃 ; <0.75GeV 可 以 排除 efe- 一 ete- 和 下 (2S) 一 ere- 
导致 的 本 底 , 而 对 信号 事例 的 判 选 效 率 损失 很 小 . 
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4.6” 带 正 电 粒子 沉积 能 量 的 分 布 , 横 轴 单 位 为 GeV 


. ， 直方 图 代表 w(2S) 一 p5 信号 的 蒙特 卡 罗 模 拟 训 练 样本 经 过 事例 判 选 条 件 选 出 的 事例 中 的 p 的 沉积 能 量 ， 
十 字 叉 代表 实验 数据 经 过 事例 判 选 条 件 选 出 的 事例 中 带 正 电 粒子 的 沉积 能 量 . 信号 事例 数 与 本 底 事 例 数 已 
经 正确 地 归 一 化 


6. pB 总 能 量 判 选 条 件 


用 已, 表示 用 带 正 电 粒 子 动量 和 质子 质量 计算 得 到 的 能 量 值 , Es 表示 用 带 负 
电 粒 子 动量 和 反 质 子 质量 计算 得 到 的 能 量 值 . 对 于 信号 事例 y(2S) 一 p5, Ep 十 Bs 
应 该 与 w(2S) 的 质量 值 (3.686GeV) 一 致 . 考虑 到 动量 测量 存在 误差 , 特征 量 |Eb 二 
Es 一 3.686| 应 当 与 0 相差 不 大 . 而 对 于 式 (4.1.6) 所 示 的 本 底 事例 , 因为 用 错误 的 
粒子 质量 (质子 质量 ) 计算 机 和 Es, 其 能 量 和 ,+ Es 与 y(2S) 的 质量 值 送别 
比较 大 . 图 4.7 表示 了 末 + Bs 的 分 布 . 其 中 直方 图 代表 w(2S) 一 p5 信号 的 蒙 
特 卡 罗 模 拟 训练 样本 的 分 布 , 阴影 部 分 表示 本 底 的 蒙特 卡 罗 模 拟 训练 样本 的 分 布 . 


4.1 超 长 方 体 分 割 法 “77. 


十 字 叉 代表 实验 数据 的 分 布 , 所 有 上 述 事 例 样 本 都 经 过 事例 判 选 条 件 选 出 . 可 以 看 
到 实验 数据 的 分 布 与 信号 加 本 底 的 蒙特 卡 罗 模 拟 训练 样本 的 分 布 比 较 接 近 , 但 在 
高 能 量 端 实验 数据 的 事例 数 比较 多 , 说 明 对 于 本 底 的 蒙特 卡 罗 模 拟 还 有 缺陷 . 采用 
|E, + Es 一 3.686| < 0.13GeV 的 判 选 条 件 使 得 对 于 信号 事例 有 较 高 的 效率 , 并 且 避 
免 了 蒙特 卡 罗 模 拟 的 缺陷 带 来 的 不 一 致 性 . 该 判 选 条 件 用 到 了 两 个 特征 量 . 
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. 图 4.7 ,十 Bs 的 分 布 
直方 图 代表 w(2S) 一 p5 信和 号 的 蒙特 卡 罗 模 拟 训练 样本 的 分 布 ,阴影 部 分 表示 本 底 的 蒙特 卡 罗 模 拟 训练 样 
本 事例 的 分 布 . 十 字 叉 代表 实验 数据 事例 的 分 布 . 所 有 上 述 事 例 样本 都 经 过 事例 判 选 条 件 选 出 , 信号 事例 数 
与 本 底 事例 数 已 经 正确 地 归 一 化 


“7. 带 负电 粒子 动量 判 选 条 件 

对 于 y(2S) 一 p5 信号 事例 , 带 人 负电 粒子 ( 反 质子 ) 动量 ps 应 为 1.586GeV. 
而 对 于 式 (4.1.10) 所 示 的 本 底 事 例 , 因为 e, ,7,K 的 质量 远 远 小 于 质子 质量 , 所 以 
粒子 动量 高 于 1.586GeV, 分 别 为 1.843, 1.840, 1.838, 1.775GeV. 所 以 用 判 选 条 件 
|ps 一 1.586| < 0.15GeV 可 以 将 信号 和 本 底 区 分 开 来 , 有 高 的 信号 判 选 效率 和 强 的 本 
底 排 除 能 力 . 之 所 以 有 0.15GeV 的 宽容 是 考虑 到 反 质 子 在 主 漂移 室 中 的 能 量 损失 
和 动量 测定 的 不 确定 性 . 

实验 数据 样本 经 过 以 上 事例 判 选 条 件 后 , 或 者 说 经 过 上 述 判 选 条 件 构成 的 信号 
事例 分 类 器 , 得 到 的 类 信号 事例 的 带 正 电 粒子 的 动量 分 布 如 图 4.8 中 数据 点 所 示 . 
图 中 的 直方 图 表示 的 是 归 一 化 的 信号 和 本 底 的 蒙特 卡 罗 模 拟 训练 样本 的 分 布 , 与 实 
验 数 据 的 分 布 十 分 符合 . 阴影 部 分 是 本 底 的 蒙特 卡 罗 模 拟 训 练 样本 的 分 布 , 它 的 事 
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例 数 占 所 选 出 的 全 部 事例 的 比例 很 小 , 这 一 比例 就 是 信号 事例 分 类 器 的 错误 率 , 或 
者 用 粒子 物理 的 语言 称 为 本 底 事 例 污 染 率 . 该 信号 事例 分 类 器 对 于 信号 事例 的 选择 
效率 为 sss 一 34.4%, 考虑 到 一 部 分 效率 是 由 于 探测 器 的 有 限 立 体 角 损 失掉 的 , 这 一 
信和 号 选择 效率 是 相当 高 的 . 如 果 把 探测 器 的 有 限 立体 角 损 失 考 虑 进去 , 实际 的 信号 
选择 效率 达到 cgs =77.6%. 所 选 出 的 全 部 类 信和 号 事例 数 为 1656, 其 中 真实 信号 事 
例 数 1618, 本 底 事 例 数 为 38, 所 以 本 底 污 染 率 为 2.29%. 该 信号 事例 分 类 器 对 于 本 
- 底 事例 的 选择 效率 仅 为 esp = 38/(14 x 106) = 2.7 x 10-6, 所 以 对 于 本 底 事 例 有 很 
强 的 排除 能 力 . 


(事件 /10MeV) 


14 15 16 17 ~ 18 
动量 /GeV 


图 4.8 带 正 电 粒 子 的 动量 分 布 


数据 点 代表 实验 数据 事例 的 分 布 , 直方 图 代表 yw(25) 一 p5 信号 和 本 底 的 蒙特 卡 罗 模拟 训练 样本 的 分 布 ， 
阴影 部 分 表示 本 底 的 蒙特 卡 罗 模 拟 训练 样本 事例 的 分 布 . 所 有 上 述 事 例 样 本 都 经 过 事例 判 选 条 件 选 出 ,信号 
事例 数 与 本 底 事 例 数 已 经 正确 地 归 一 化 


从 这 一 具体 实例 我 们 可 以 看 到 超 长 方 体 分 割 法 用 于 分 类 问题 的 一 些 特点 首 
先 , 每 一 级 判 选中 用 到 的 判别 量 往往 有 明确 的 物理 含义 . 我 们 对 于 信号 和 本 底 关于 
该 变量 的 分 布 往往 已 经 有 先 验 知识 , 知道 这 两 者 存在 差别 , 因而 可 以 利用 它 鉴 别 信 
号 和 本 底 . 其 次 , 每 一 级 判 选中 的 判别 量 可 以 是 一 个 变量 , 或 者 是 若干 个 变量 的 某 
种 组 合 或 函数 , 后 者 对 于 信号 和 本 底 的 鉴别 有 更 强 的 能 力 , 这 种 做 法 实际 上 是 对 超 
长 方 体 分 割 法 的 一 种 简单 而 有 效 的 改进 , 有 助 于 提高 信号 选择 效率 , 压制 本 底 污 染 
率 . 第 三 , 每 一 级 判 选中 判别 量 阐 值 的 确定 可 以 利用 判别 量 的 分 布 直观 地 加 以 确定 . 
“如 果 信 号 和 本 底 训 练 样本 的 分 布 相互 重 登 , 可 用 式 (4.1.3) 所 示 的 信号 显著 性 极 大 
化 加 以 确定 . 而 且 信 号 和 本 底 训练 样本 的 分 布 相互 离散 的 程度 也 反映 了 该 判别 量 
对 于 信号 和 本 底 判别 能 力 的 强 弱 . 再 者 , 对 于 分 类 器 最 终 选 出 的 类 信和 号 事例 , 并 不 


4.2 决策 树 法 .79. 


简单 地 都 认定 为 信号 事例 , 而 是 利用 训练 样本 确定 其 污染 率 后 把 其 中 的 本 底 污染 事 
例 数 加 以 扣除 以 进一步 减 小 测量 误差 . 由 于 以 上 这 些 做 法 , 超 长 方 体 分 割 法 用 于 分 
类 问题 时 , 不 但 具有 简便 , 物理 图 像 明确 的 优点 , 有 时 也 能 达到 相当 高 的 信号 选择 
效率 和 本 底 排 除 能 力 . 


4.2 决策 树 法 
4.2.1 ”决策 树 法 的 基本 思想 


决策 树 (decision trees) 或 称 树 分 类 器 119,20, 是 模式 识别 中 进行 分 类 的 一 种 有 
效 方法 . 它 在 高 能 物理 中 的 应 用 见 文献 [21]. 利用 树 分 类 器 可 以 把 一 个 复杂 的 多 类 
别 分 类 问题 转化 为 若干 个 简单 的 分 类 问题 来 解决 ， 它 不 是 企图 用 一 个 决策 规则 把 
多 个 类 别 的 样本 一 次 分 开 , 而 是 采用 分 级 的 方法 , 使 分 类 问题 逐步 得 到 解决 . 图 4.9 
就 是 一 个 决策 树 的 例子 . 


图 4.9 决策 树 示 意图 


一 般 地 , 一 个 决策 树 由 一 个 根 节点 m, 一 组 非 终止 节点 n;, 和 一 些 终止 节点 
( 称 为 时 节点 ) t; 构成 . 每 个 时 节点 标 以 相应 的 样本 类 别 标签 , 不 同 的 叶 节 点 可 以 有 
相同 的 类 别 标签 . 如 果 用 符号 了 表示 决策 树 , 那么 一 个 了 决策 树 对 应 于 特征 空间 
的 一 种 划分 , 它 把 特征 空间 分 成 若干 个 区 域 , 其 中 某 个 类 别 的 样本 占有 优势 的 区 域 
标记 以 该 类 样本 的 类 别 . 

决策 树 的 一 种 简单 形式 是 二 叉 树 所 谓 二 叉 树 , 是 指 除 叶 节点 外 , 树 的 每 个 节 
所 仅 分 为 两 个 分 支 , 也 就 是 说 , 每 个 节点 有 且 仅 有 两 个 子 节点 . 二 叉 树 结构 的 分 类 
右 可 以 把 一 个 复杂 的 多 类 别 分 类 问题 化 为 多 级 、 多 个 两 类 问题 来 解决 , 在 每 个 节点 
都 把 样本 集 分 为 左 、 右 两 个 子 集 . 分 出 的 每 个 部 分 仍然 可 能 包含 多 个 类 别 的 样本 ， 
在 下 一 级 的 节点 , 把 每 个 部 分 再 分 成 两 个 子 集 ,.…….…. 直到 最 后 分 出 的 每 个 部 分 只 包 
含 同一 类 别 的 样本 , 或 某 一 类 别 样本 占 优 势 为 止 . 
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这 种 二 叉 树 结构 分 类 器 概念 简单 、 直 观 , 便于 解释 , 而 且 在 各 个 节点 上 可 以 选 
择 不 同 的 特征 和 采用 不 同 的 决策 规则 , 因此 设计 方法 简便 且 灵 活 多 样 , 便于 利用 先 
验 知识 来 设计 分 类 器 . 

图 4.10 是 一 个 二 又 决策 树 的 例子 . 该 例 中 每 个 节点 只 选择 一 个 特征 , 并 给 出 
了 相应 的 决策 阔 值 . 对 于 未 知 样本 z, 只 要 从 根 节 点 到 叶 节 点 顺序 把 z 的 某 个 特征 
观测 值 与 相应 的 决策 阐 值 比较 , 就 可 作出 决策 , 把 样本 = 分 到 相应 的 分 支 , 最 后 分 
到 合适 的 类 别 . 


图 4.10 ”一 个 二 又 决策 树 的 示意 图 


从 图 4.1 和 4.10 的 对 比 可 以 看 到 , 超 长 方 体 分 割 法 是 二 叉 决策 树 方法 的 一 种 
最 简单 的 特例 . 即使 对 于 样本 只 分 成 信号 和 本 底 两 个 类 别 的 两 类 问题 , 并 且 每 个 节 
点 仅 对 一 个 特征 变量 作 二 元 决策 的 情形 , 超 长 方 体 分 割 法 和 二 又 决策 树 方法 虽然 是 
相似 的 , 却 并 不 完全 相同 . 前 者 在 每 个 节点 的 判别 中 必定 将 一 部 分 样本 判定 为 该 分 
类 器 的 “本 底 事例 ”, 后 者 却 没有 这 样 的 要 求 ; 前 者 一 般 是 有 n 层 节 点 , 顺 次 地 利用 
特征 向 量 z 的 ”个 变量 进行 判别 , 每 个 变量 利用 一 次 ; 而 二 又 决策 树 在 每 一 个 节 
扩 , 是 通过 某 种 优化 步骤 , 寻找 特征 向 量 w 的 某 一 个 变量 及 其 阐 值 , 使 得 在 这 一 节 
所 的 判 选中 能 最 有 效 地 区 分 信号 和 本 底 , 也 就 是 说 , 每 个 节点 的 判别 变量 是 选择 该 
节点 中 区 分 信号 和 本 底 能 力 最 强 的 那个 变量 , 所 以 在 一 个 二 又 决策 树 中 , 同一 个 变 
量 可 能 在 不 同 层次 的 节点 中 被 重复 使 用 . | 

设计 一 个 决策 树 , 主要 应 解决 三 个 问题 : 

1. 选择 一 个 合适 的 树 结构 , 即 合理 安排 树 的 节点 和 分 支 ; 

2. 确定 每 个 非 终 止 节点 上 要 使 用 的 特征 ; 

3. 在 每 个 非 终止 节点 上 选择 适当 的 决策 规则 . 
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这 三 个 问题 解决 了 , 决策 树 的 设计 也 就 完成 了 . 二 叉 决 策 树 的 设计 也 不 例外 ， 对 于 
超 长 方 体 分 割 法 , 也 就 是 只 有 两 种 类 别 的 最 简单 的 二 叉 树 , 其 结构 尤其 简单 , 其 一 
般 形式 如 图 4.1 所 示 . : 

把 一 个 多 类 别 问题 转化 为 多 个 两 类 问题 的 途径 是 多 种 多 样 的 , 因此 , 对 应 的 二 
叉 树 的 结构 也 将 各 不 相同 . 因此 决策 树 设 计 的 目标 是 要 寻找 一 个 性 能 最 优 的 决策 
树 ， 显 然 , 一 个 性 能 民 好 的 决策 树 应 该 有 高 的 判别 效率 和 低 的 误 判 率 ， 以 及 尽 可 能 
小 的 计算 量 . 但 是 , 由 于 很 难 把 效率 和 误 判 率 的 表达 式 与 树 的 结构 联系 起 来 ; 同时 ， 
在 每 个 节点 上 的 决策 规则 也 仅仅 是 该 节点 上 所 使 用 的 特征 观测 值 的 函数 , 即使 每 个 
节点 上 采用 的 决策 规则 性 能 达到 最 优 ,， 由 于 没有 考虑 到 与 其 他 特征 的 可 能 的 关联 ， 
也 不 能 说 整个 决策 树 的 性 能 达到 最 优 ， 所 以 性 能 最 优 的 决策 树 是 很 难 达 到 和 准确 
判断 的 . 在 实际 问题 中 , 人 们 往往 提出 其 他 一 些 优化 准则 , 例如 极 小 化 整个 决策 树 
的 节操 数 , 或 极 小 化 从 根 节 点 到 叶 节 点 的 最 大 路 程 长 度 , 或 极 小 化 从 根 节 点 到 叶 节 
点 的 平均 路 程 长 度 等 等 , 力争 设计 出 性 能 比较 优良 的 决策 树 . 此 外 , 我 们 在 超 长 方 
体 分 割 法 中 讨论 的 优化 决策 规则 性 能 的 三 种 途径 , 显然 在 决策 树 的 优化 设计 中 同样 
适用 . 
4.2.2 ”信号 /本 底 二 元 决策 树 的 构建 


现在 我 们 来 讨论 实验 数据 分 析 中 常见 的 情形 , 即 解决 信号 和 本 底 的 两 类 事例 的 
分 类 问题 . 求解 这 类 问题 的 过 程 , 就 是 利用 一 个 训练 样本 集 来 构建 (训练 ) 一 个 决 
策 树 的 过 程 . 训练 样 本 集中 包含 信号 和 本 底 两 类 事例 .训练 从 根 节点 开始 , 在 每 一 
个 节点 , 通过 某 种 优化 步骤 , 寻找 特征 向 量 z 的 某 一 个 变量 及 其 阔 值 , 使 得 在 这 一 
节点 的 判 选中 能 最 有 效 地 区 分 信号 和 本 底 . 通过 该 节点 的 判 选 , 输入 事例 被 区 分 为 
“类 信号 事例 ”和 “类 本 底 事例 ” 两 部 分 , 其 中 “类 信号 事例 ”中 信号 事例 的 比率 高 
于 判 选 前 的 信号 事例 的 比率 , 而 “类 本 底 事 例 ” 部 分 则 相反 . 这 两 部 分 事例 作为 下 
一 层 节 点 的 输入 进行 进一步 的 判 选 . 这 一 过 程 -一直 延续 下 去 , 直到 满足 某 种 终结 条 
件 时 停止 . 最 底层 的 ( 叶 ) 节点 被 分 为 信号 和 本 底 节 点 两 类 , 其 中 到 达 信 号 事例 多 的 
叶 节 后 指 定 为 信号 节点 , 到 达 本 底 事例 多 的 叶 节 点 指定 为 本 底 节点 . 这 样 , 一 个 决 
策 树 就 构造 完成 了 . 当 一 个 待 分 类 的 样本 集 输入 决策 树 , 则 落 入 信号 叶 节 点 的 事例 
被 判定 为 “信和 号 事例 ”, 落 入 本 底 叶 节点 的 事例 被 判定 为 “本 底 事例 ”. 图 4.11 是 一 
个 区 分 信和 号 /本 底 的 二 又 决 策 树 的 示意 图 . 

问题 在 于 怎样 来 评价 和 确定 每 个 节点 选择 的 (变量 + 阐 值 ) 组 合 对 于 信和 号 和 
本 底 的 判别 能 力 . 事实 上 , 对 于 同样 的 (变量 + 阔 值 ) 组 合 , 它 对 信号 和 本 底 的 判 
别 能 力 取 决 于 输入 该 节点 的 (信号 /本 底 ) 事例 数 之 比 r. 当 7 = 0 或 7 = oo( 输 入 
该 节点 的 只 有 信和 号 事例 或 只 有 本 底 事 例 ), 任何 (变量 + 溯 值 ) 组 合 都 失去 了 对 信 
号 和 本 底 的 判别 能 力 ; 而 当 7 = 1 时 , 任何 (变量 + 阔 值 ) 组 合 都 达到 其 可 能 有 的 


.82 . 第 四 章 《决策 树 判别 


图 4.11 一 个 区 分 信和 号 /本 底 的 二 叉 决 策 树 的 示意 图 
图 中 方 框 家 示 叶 节点 , S 标志 信号 节点 , B 标志 本 底 节点 . 所 有 节点 中 的 左 侧 数 字 表 示 输 入 该 节点 的 信号 
事例 数 , 右 侧 数 字 表 示 本 底 事例 数 


最 大 信和 号 和 本 底 的 判别 能 为 . 这 种 现象 称 为 信号 /本 底 判 别 能 力 对 于 输入 样本 成 分 
的 不 均衡 (disparity) . 因此 在 每 一 节点 选择 最 优 (变量 十 闷 值 ) 组 合 时 必须 避免 这 
种 不 均衡 . 

测试 表明 , 利用 下 列 量 来 估价 信和 号 /本 底 判别 能 力 不 存 在 明显 的 性 能 不 均衡 : 


Gini 指数 (Gini index) 一 一 定义 为 p(1 一 了 (4.2.1) 
交 又 灶 (cross entropy) 一 一 定义 为 -pnp 一 (1 一 p)In(1 一 p) (4.2.2) 
误 判 误差 一 一 定义 为 1 一 max(p,1 一 p) z (4.2.3) 
统计 显著 性 一 一 定义 为 ns/Vns 十 nB (4.2.4) 


其 中 , ns,ns 分 别 为 输入 该 节点 的 信号 和 本 底 的 事例 数 ; p 表示 该 节点 中 输入 的 信 
号 事例 所 占 的 比例 , 也 称 为 信号 事例 纯度 (purity): 


p= ns/(ns + ns) (4.2.5) 


式 (4.2.1)~(4.2.4) 所 示 的 这 几 个 量 被 称 为 (信号 /本 底 ) 判别 指数 (separation index)， 
用 符号 了 表示 . 决策 树 的 训练 过 程 中 , 在 每 一 个 节点 处 在 所 有 ” 个 变量 中 只 选择 
一 组 (变量 + 阀 值 ) 组 合 , 使 得 该 节点 的 判别 指数 与 它 的 两 个 子 节点 的 判别 指数 的 
加 权 和 的 增 量 达到 最 大 , 子 节点 的 权 值 等 于 子 节点 的 输入 事例 数 除 以 母 节点 的 输入 
事例 数 , 该 增 量 A7 用 公式 表示 为 


nl 


A1=1-( 
n 


172 


卫 十 


int Wint 


) ， Nint 一 N1 十 922. (4.2.6) 


式 中 , 了 五 ,有 分 别 为 母 节点 和 两 个 子 节点 的 判别 指数 ; nint,n1,n2 分 别 为 母 节 点 和 
两 个 子 节点 的 输入 事例 数 . 
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一 一 一 一 

在 实际 的 训练 过 程 中 , 一 般 将 每 个 变量 (zi, zz, .… ,za) 的 值 域 分 为 nt, 个 小 
区 间 , 这 nowts 个 区 闻 的 中 心 值 作为 neuts 个 阐 值 对 增 量 AT 进行 计算 , 取 其 中 的 最 
大 增 量 作为 该 变量 的 最 大 增 量 . 在 所 有 nn 个 变量 (zi za， .， .Zn) 的 最 大 增 量 中 ， 用 
值 最 大 的 那个 变量 x; 作为 本 节点 的 判别 变量 , 其 最 大 增 量 对 应 的 阔 值 2 加 与 7 
起 构成 该 节点 的 最 优 (变量 + 阔 值 ) 组 合 . 经 验 表明 nts 取 为 20 是 个 比较 适当 的 
选择 , 它 是 计算 量 和 精细 程度 之 间 的 一 个 比较 适当 的 平衡 , 过 大 的 ww. 值 并 不 能 
提升 二 叉 树 的 信号 /本 底 判 别 性 能 , 反而 不 必要 地 增加 了 计算 量 . 

显然 训练 的 终结 条 件 决定 了 二 叉 树 的 长 度 . 文献 [3] 提供 了 终止 训练 过 程 的 几 
种 方法 . 经 常 实际 使 用 的 做 法 之 一 是 设 定 一 个 最 大 的 叶 节 点 数 , 当 训 练 过 程 已 经 形 
成 的 叶 市 点 数 等 于 大 于 该 数值 则 训练 停止 . 另 一 种 常用 的 方法 是 设 定 一 个 最 小 的 事 
例 数 NL, 当 输 入 事例 数 小 于 NL, 该 节点 的 训练 停止 . 以 上 两 种 做 法 看 起 来 缺乏 理 
论 依据 , 并 且 对 于 不 同 的 问题 需要 根据 经 验 确定 适当 的 具体 数值 . 第 三 种 做 法 是 当 
一 个 节操 的 输入 事例 为 同一 类 事例 时 , 该 节点 的 训练 终止 . 第 四 种 做 法 是 根据 所 有 
节点 的 增 量 值 来 决定 训练 是 否 终止 , 当 节 点 增 量 AT 满足 

AT 和 6， 68> 0 常数 (4.2.7) 


则 该 节点 的 训练 终止. 

训练 完成 后 , 输入 事例 数 中 信号 事例 占 优 的 叶 节 点 被 指定 为 二 叉 树 的 信号 叶 节 
扩 , 本 底 事 例 占 优 的 叶 节 点 被 指定 为 二 叉 树 的 本 底 叶 节点 . 这 样 一 个 二 叉 树 就 构建 
完成 . 当 一 个 待 分 类 的 事例 样本 集 输入 这 样 构 建 的 二 叉 树 后 , 归 入 信号 叶 节点 的 事 
例 被 判 为 “信号 事例 ”, 归 入 本 底 叶 节点 的 事例 被 判 为 “本 底 事 例 ”. 


4.2.3 ”决策 树 的 修剪 


4.2.2 小 节 中 讨论 二 叉 树 的 构建 时 提 到 , 利用 一 个 训练 样本 集 ， 从 根 节 点 开始 ， 
在 每 一 个 节点 , 通过 某 种 优化 步骤 , 寻找 特征 向 量 = 的 某 一 个 变量 及 其 闵 值 , 使 得 
在 这 一 节点 的 判 选中 能 最 有 效 地 区 分 信号 和 本 底 . 这 一 过 程 一 直 延 续 下 去 , 直到 满 
趾 茶 种 终结 条 件 为 止 , 完成 二 叉 树 的 构建 . 例如 可 以 进行 到 每 个 子 节点 只 包含 信号 
事例 或 本 底 事例 为 止 . 这 样 构建 的 二 叉 树 其 节点 数 达 到 极 大 值 . 初 看 起 来 , 这 种 做 
法 能 够 达到 对 信号 和 本 底 的 错误 率 较 低 的 判别 , 事实 上 , 这 种 做 法 存在 两 个 问题 . 第 
一 , 起 初 决 策 树 的 错误 率 随 节点 数 的 增加 而 减 小 , 但 存在 一 个 最 佳节 点 数 的 决策 树 ， 
它 的 错误 率 达 到 极 小 ; 当 决 策 树 的 节点 数 大 于 该 值 时 , 错误 率 反 而 增加 , 所 以 决策 
树 的 节点 数 并 非 越 多 越 好 . 第 二 , 过 长 的 决策 树 训练 得 到 的 名 义 误 判 率 往往 低 于 误 
判 率 的 真实 值 . 这 种 导致 低估 误 判 率 的 分 叉 过 长 的 决策 树 训练 (构建 ) 称 为 过 度 训 
练 . 

L.Breiman 等 认为 59, 利用 某 种 终结 条 件 构建 决策 树 不 是 解决 决策 树 最 优化 的 
正确 途径 .寻找 最 优化 决策 树 的 正确 方法 是 首先 构建 一 个 节点 数 达 到 极 大 的 决策 
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树 ,然后 , 为 了 避免 过 度 训 练 和 计算 量 的 有 害 增 长 , 需要 进行 修剪 (pruning). 所 谓 修 
前 ,就 是 对 于 节点 数 达 到 极 大 值 的 决策 树 自 下 而 上 地 剪除 对 于 有 效 地 分 辨 信号 /本 
底 用 处 不 大 的 节点 . 显然 , 需要 确定 一 种 准则 来 判断 什么 样 的 节点 应 当 被 剪除 . 

由 工 .Breiman 等 "5 提出 的 最 小 复合 费用 修剪 方案 如 下 . 在 二 叉 树 的 每 个 节点 ， 
训练 样本 的 误 判 率 由 式 (4.2.3) 定义 ; 


R=1— max(p,l —») (4.2.8) 
该 节点 的 复合 费用 定义 为 RR 
p= NN 2 (4.2.9) 


其 中 , Rsub 表示 该 节点 以 下 的 那 部 分 二 叉 树 的 总 误 判 率 (等 于 该 二 叉 树 所 有 叶 节 点 
的 误 判 率 之 和 ); Nesub 表示 该 节点 以 下 的 那 部 分 二 叉 树 包含 的 叶 节 点 数 . 每 个 叶 节 
所 的 信号 纯度 p 等 于 到 达 该 节点 的 信号 事例 数 除 以 到 达 该 节点 的 总 事例 数 . 叶 节 
点 的 误 判 率 仍 用 式 (4.2.8) 计算 . 一 棵 二 叉 树 中 , 假定 复合 费用 p 最 小 的 节点 称 为 节 
点 t, 当 它 的 复合 费用 小 于 给 定 的 修剪 量 (prune strength)pps, 即 


At < pps, (4.2.10) 


则 节点 二 以 下 的 部 分 二 叉 树 被 剪除 , 而 节点 t 变 成 一 个 “新 的 ” 叶 节 点 . 这 种 修剪 
人 不断 地 进行 , 直到 不 再 出 现 这 样 的 叶 节 点 为 止 , 整 棵 二 叉 树 的 修剪 得 以 完成 . 

修剪 量 的 大 小 可 以 用 下 述 步骤 来 确定 : 将 训练 样本 集 分 为 两 个 子 集 , 子 集 1 专 
用 于 构建 二 又 树 , 子 集 2 专用 于 构建 完成 的 二 叉 树 的 性 能 测试 . 对 于 一 个 给 定 的 
pps 值 , 用 子 集 1 构建 二 叉 树 (pps), 子 集 2 进行 其 性 能 测试 , 这 样 就 得 到 二 又 树 
性 能 与 pps 值 的 函数 关系 . 例如 , 将 子 集 2 的 N 个 样本 输入 Ti(pps), 由 于 子 集 2 
的 Nz 个 样本 的 分 类 是 事先 指定 的 , 因此 TT (pps) 对 这 Na 个 样本 的 分 类 错误 的 情 
沉 也 能 知道 , 假定 分 类 错误 的 样本 数 记 为 Ne(pps) 个 , 则 五 (pps) 的 错误 率 为 


e(T1) = 二 (4.2.11) 


这 样 , 对 于 不 同 的 pps 值 , 就 得 到 es( 7 ) 与 pps 的 函数 关系 , 可 取 ce(T) 最 小 的 二 
又 树 对 应 的 pps 作为 最 优 的 修剪 量 . 为 了 保证 这 种 函数 关系 有 较 好 的 平稳 性 和 统 
计 稳 定性 , 两 个 子 集 的 样本 数 应 该 足够 大 . 如 果 不 作 这 样 的 优化 , 一 般 可 取 5 作为 
pps 值 . 


4.3 ”决策 树林 法 


决策 树林 法 (boosted decision trees)l22 是 决策 树 方 法 的 扩展 , 是 为 了 克服 决策 
树 法 对 于 训练 样本 集 的 统计 涨 落 具 有 不 稳定 性 的 缺点 而 发 展 起 来 的 , 它 已 证 明 是 一 
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种 有 效 而 可 靠 和 性 能 优良 的 分 类 器 , 但 到 目前 为 止 在 高 能 物理 实验 中 的 实际 应 用 还 
不 是 很 多 . 

决策 树 法 对 于 训练 样本 集 的 统计 涨 落 具有 不 稳定 性 .例如 特征 变量 zx 和 zx。 
有 相近 的 信号 /本 底 判 别 能 力 ， 如 果 不 存 在 统计 涨 落 (无 限 大 样本 集 ), 假设 zi 比 
”22 有 较 强 的 判别 能 力 , 所 以 会 首先 选择 zi 来 构建 决策 树 ; 但 由 于 训练 样本 集 的 统 
计 涨 落 (有 限 样 本 集 ), 可 能 会 首先 选择 za 来 构建 决策 树 . 这 两 种 不 同 结构 的 决策 
树 对 于 同一 个 待 分 类 事例 可 能 给 出 不 同 的 判别 结果 . 


4.3.1 ”决策 树林 的 构建 


决策 树 法 的 统计 不 稳定 性 这 一 缺点 在 决策 树林 法 中 可 得 到 克服 . 它 的 基本 思想 
是 , 对 于 一 个 训练 样本 集 , 构建 第 一 棵 决策 树 后 , 对 该 样本 集中 的 每 个 事例 按 某 种 
规则 赋予 新 的 权 值 (构建 第 一 棵 决策 树 时 , 该 样本 集中 的 每 个 事例 权 值 相等 ) 然后 
用 具有 新 权 值 的 样本 集 构 建 第 二 棵 决策 树 ，.……. , 依次 构建 K 棵 决策 树 组 成 的 树 
林 . 当 对 任 一 新 的 事例 作 分 类 时 , K 棵 决策 树 组 成 的 树林 对 于 该 事例 的 类 别 有 K 
个 判别 结果 , 以 多 数 的 结果 作为 整个 决策 树林 对 该 事例 类 别 的 最 终 判 决 . 决策 树林 
对 同一 个 待 分 类 事例 给 出 不 同 结果 的 可 能 性 较 之 单个 决策 树 大 大 减 小 , 即 在 相当 大 
的 程度 上 克服 了 决策 树 法 的 统计 不 稳定 性 . 

由 以 上 讨论 可 见 , 构建 决策 树林 的 关键 点 在 于 构建 天 棵 决策 树 时 怎样 改变 权 
值 . 最 常用 的 方法 是 Y.Freund 和 R.E.Schapire 提出 的 自 适应 方法 (adaptive 
boost) 2 ， 其 基本 思想 是 在 一 棵 决策 树 训练 过 程 中 被 误 判 的 所 有 事例 在 下 一 - 棵 树 
的 构建 中 赋 以 较 高 的 权 值 , 判别 正确 的 事例 则 保持 权 值 不 变 . 

假定 训练 样本 集 包 含 N 个 事例 , 定义 构建 第 棵 决策 树 时 , 样本 集中 第 i 个 
事例 zx; 的 权 值 为 wi(k),i = 1,2,…,N;k = 1,2,…, 下. 构建 第 一 棵 决策 树 时 , 样本 
集中 所 有 事例 的 权 值 均 为 1, 即 


will)=1, i=1,2,...,N. (4.3.1) 


我 们 用 4.2 节 讨 论 的 二 元 决策 树 来 训练 样本 集 的 N 个 事例 . 用 (x;) 表示 第 
k 棵 决策 树 Ti 对 于 第 i 个 事例 xz; 的 判别 结果 的 正确 性 , 即 


tr(zi) 二 0， 妆 对 事例 xw; 判别 正确 ; 
tr (zi) = 1, 当 对 事例 zx; 判别 错误 . 


定义 决策 树 T 对 于 训练 样本 集 N 个 事例 的 误 判 率 为 


(4.3.2) 


N N 
ek = > w(K)ti (vi) / Dwilk), k=1,2,...,K. (4.3.3) 
i 二 1 it 一 1 
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则 构建 决策 树 To; 时 , 样本 集中 第 i 个 事例 的 权 值 修改 为 


wi(k+1) = wi(k): os(k). (4.3.4) 
其 中 | 
= 二 二 < = a 1 音 1 ; 
Qi(k) = = (k)， ”事例 i 被 Ti 错误 判别 ; (4.3.5) 
Qi(k) = 1, 事例 i 被 7 正确 判别 . 
定义 归 一 化 常数 Nx ， 为 权 值 和 : 
N N 
Ni = >》 wt(k+1) = > wi(k) .oilk) (4.3.6) 
i=1 4 一 1 
则 构建 第 1 时 , 样本 集中 第 i 个 事例 的 归 一 化 权 值 为 
wu 人 + 一 三 人 TD -Neal (4.3.7) 
半 Swilk) -oilk) 
?一 
这 样 , 归 一 化 权 值 之 和 就 等 于 训练 样本 集 的 事例 总 数 : 
~ 人 
>》ui+l=>》 N=N. (4.3.8) 
?一 工 


二 > wilh) . Qi(k) 


于 是 利用 归 一 化 权 值 wi(k + 1) 来 构建 决策 树 Ti1. 该 过 程 一 直 进 行 到 所 有 KK 棵 
决策 树 构建 完成 为 止 , 一 个 完整 的 决策 树林 的 训练 (构建 ) 过 程 便 完成 了 .典型 的 
K 值 为 1000~2000[24, 
4.3.2 ”决策 树林 对 输入 事例 的 分 类 

(1) 用 K 个 决策 树 的 二 元 决策 确定 决策 树林 的 输出 

当 对 一 个 待 分 类 事例 进行 判别 时 , 令 该 事例 的 特征 向 量 为 z, 将 该 事例 输入 构 
建 完成 的 决策 树林 , 其 中 Th(k = 1,2,…,K) 对 事例 的 判定 结果 用 hs(z) 表示 , 若 
判定 为 “信和 号”, 则 h(x) = 1; 若 判 定 为 “本 底 ”, 则 hx (zw) = 一 1. 整个 决策 树林 对 
输入 事例 的 输出 y(z) 可 取 为 K 棵 决策 树 输出 值 的 简单 平均 : 


kK 
y(z) = >》 hx(r)/K (4.3.9) 
k=1 
或 取 为 K 棵 决策 树 输出 值 的 加 权 平 均 : 


K 
y(£) = > In(ak) hr(w). (4.3.10) 
k=1 
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决策 树林 对 输入 事例 的 分 类 为 


| 信号 事例 ， 当 y(z) > wp; (4.3.11) 


本 底 事例 ， 当 YL) < yth- 
式 中 , ytn 是 事先 给 定 的 常数 . 
(2) 用 训练 纯度 确定 决策 树林 的 输出 
当 用 4.2.2 小 节 的 方法 构建 二 叉 决策 树 时 , 对 于 每 个 叶 节 点 , 其 信号 纯度 p 等 
于 到 达 该 节点 的 信号 事例 数 除 以 到 达 该 节点 的 总 事例 数 .， 当 对 一 个 待 分 类 事例 进 
行 判别 时 , 如 车 该 事例 在 决策 树 Ti(k = 1,2,…,KK) 中 最 后 落 入 的 叶 节 点 的 训练 纯 
度 为 pk(z), 则 整个 决策 树林 对 输入 事例 的 输出 y(z) 可 取 为 K 棵 决策 树 输出 值 的 
加 权 平 均 : 于 | 
y(z) = 》 pr(z)hr(z). (4.3.12) 
Ek 二 1 . 
因为 叶 节 点 的 训练 纯度 对 于 过 度 训练 是 敏感 的 , 因此 训练 纯度 pi(z) 往往 被 过 度 估 
计 . 因此 使 用 这 种 方法 必须 加 以 小 心 . 迄今 为 止 对 于 该 方法 的 测试 表明 , 它 的 分 类 
性 能 并 不 比方 法 (1) 有 明显 改善 . 


4.3.3 ” 重 抽样 法 构建 决策 树林 


在 4.3.1 小 节 中 , 通过 改变 训练 样本 集中 每 个 事例 的 权 值 来 构造 K 棵 决策 树 ， 
从 而 完成 决策 树林 的 构建 . 其 中 权 值 的 改变 取决 于 上 一 棵 决策 树 的 误 判 率 . 所 请 的 
重 抽样 方法 , 除了 构建 第 一 棵 决策 树 时 , 训练 样本 集中 每 个 事例 的 权 值 都 为 1 ; 在 
构建 其 余 K -1 棵 决策 树 时 , 训练 样本 集中 每 个 事例 的 权 值 是 各 自 独立 地 、 随机 地 
确定 的 (如 用 [0~1] 区 间 的 均匀 随机 数 产生 ). 当然 , 每 棵 决策 树 的 权 值 之 和 需要 归 
一 化 , 即 归 一 化 权 值 之 和 等 于 训练 样本 集 的 事例 总 数 N. 所 以 除了 权 值 的 修正 方案 
不 同 , 利用 重 抽样 方法 构建 决策 树林 的 步骤 与 4.3.1 小 节 的 一 般 方法 是 相同 的 . 利 
用 这 种 方法 构建 的 决策 树林 对 于 训练 样本 事例 的 统计 涨 落 具 有 比较 好 的 稳定 性 . 
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5.1 概 述 


人 的 大 脑 是 自然 界 造就 的 最 高 级 产物 . 人 类 大 脑 的 思维 是 人 类 智能 的 集中 体 
现 . 人 的 大 脑 是 由 大 约 10!1! 数量 级 的 神经 元 和 101 ~ 1015 数量 级 的 突 触 组 成 的 复 
杂 系 统 . 人 工 神经 网 络 是 对 人 脑 神经 网 络 的 结构 、 特 性 以 及 功能 进行 理论 抽象 、 简 
化 和 模拟 而 构建 的 一 种 信息 处 理 系 统 . 从 系统 的 观点 看 , 人 工 神经 网 络 是 由 大 量 神 
经 元 通过 丰富 和 完善 的 连接 而 构成 的 自 适应 非 线性 动态 系统 . 自 1943 年 以 来 , 人 
工 神经 网 络 在 理论 和 实践 两 方面 都 取得 了 很 大 进展 . 当前 神经 网 络 的 应 用 已 经 渗透 
到 多 个 领域 , 如 模式 识别 、 智 能 控制 、 信 号 处 理 、 优 化 计算 、 计 算 机 视觉 、 生 物 医学 
工程 等 . 本 章 简略 介绍 人 工 神经 网 络 中 与 实验 数据 多 元 分 析 相 关 的 基本 内 容 . 对 于 
人 工 神经 网 络 的 更 广泛 和 深入 的 了 解 可 参考 有 关 的 文献 和 书籍 23~ 判 . 人 工 神经 网 
络 在 粒子 物理 实验 数据 分 析 中 的 应 用 可 参考 文献 [30]. 


5.1.1 ”生物 神经 元 和 人 工 神 经 元 


神经 元 ( 即 神经 细胞 ) 是 大 脑 处 理 信息 的 基本 单元 , 它 的 基本 结构 如 图 5.1 所 
示 . 神经 元 由 4 个 部 分 组 成 : 细胞 体 、 树 突 、 轴 突 和 突 触 . 细胞 体 是 神经 元 新 陈 代 
谢 的 中 心 , 是 接受 与 处 理 信息 的 部 件 . 树 突 是 神经 元 的 输入 通道 , 接受 来 自 其 他 神 
经 元 的 信息 . 轴 突 是 神经 元 的 输出 通道 , 用 于 输出 神经 元 的 脉冲 信和 号, 轴 突 远 端的 
分 支 可 与 多 个 神经 元 连接 . 一 个 神经 元 的 神经 末梢 与 另 一 神经 元 树 突 或 细胞 体 的 
接触 处 称 为 突 触 , 它 是 神经 元 之 间 传 递 信息 的 输入 输出 接口 . 一 般 , 神经 元 的 脉冲 
信号 经 树 突 的 突 触 传 到 下 一 个 神经 元 导致 其 兴奋 , 而 经 细胞 体 的 突 触 传 到 下 一 个 神 
经 元 导致 其 抑制 . 

轴 突 


A 


胞 体 宽 触 
图 5.1 生物 神经 元 结构 示意 图 


神经 元 的 基本 工作 机 制 是 这 样 的 : 一 个 神经 元 有 两 种 状态 兴奋 和 抑制 . 
平时 处 于 抑制 状态 的 神经 元 , 其 树 突 和 细胞 体 接受 其 他 神经 元 传 来 的 输出 脉冲 信 
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息 , 多 个 输入 在 神经 元 中 以 代数 和 的 方式 二 加 . 如 果 兴 奋 总 量 超过 某 个 阔 值 , 该 神 
经 元 就 被 激发 进入 兴奋 状态 ,并 向 外 发 出 输出 脉冲 ， 通过 轴 突 传递 给 其 他 神经 元 . 
神经 元 被 激发 之 后 有 一 个 不 应 期 ， 在 此 期 间 不 能 再 被 激发 , 相当 于 阔 值 电位 突然 升 
高 , 然后 阔 值 逐渐 下 降 , 恢复 其 被 激发 的 活性 . 当然 , 以 上 关于 神经 元 工作 机 制 的 描 
述 是 极度 简化 的 . 归纳 起 来 , 生物 神经 元 具有 以 下 几 个 特性 ; 

(1) 神经 元 是 一 个 多 输入 、 单 输出 的 非 线性 信息 处 理 单 元 . 

(2) 神经 元 的 输出 响应 是 所 有 输入 的 综合 累加 作用 的 结果 ， 输入 或 输出 分 为 兴 
奋 型 ( 正 值 ) 和 抑制 型 ( 负 值 ) 两 种 . 

(3) 神经 元 具有 可 塑性 , 表现 为 其 输出 强度 
是 可 调节 的 . 

人 工 神 经 元 是 一 个 数学 模型 , 模拟 生物 神经 
元 的 信息 传递 和 处 理 功能 . 人 工 神 经 元 模型 应 当 
能 够 体现 生物 神经 元 的 上 述 特征 . 人 工 神经 元 模 
型 种 类 繁多 , 这 里 只 介绍 常用 的 最 简单 的 一 种 模 > 
型 , 即 1943 年 由 美国 心理 学 家 McCulloch 和 数 5.2 .人 工 神经 元 MP 模型 
学 家 Pitts 提出 的 形式 神经 元 的 数学 模型 , 简称 
为 MP 模型 Bi. 它 的 工作 原理 如 图 5.2 所 示 . 

图 5.2 中 ”个 输入 z1,.… ,zn 相当 于 其 他 ”个 神经 元 对 于 神经 元 ij 的 输入 值 ， 
n 个 权 值 wji,… ,wj 相当 于 突 触 的 连接 强度 , 区 表示 该 神经 元 对 于 ” 个 输入 信和 号 
的 累加 , f 表示 神经 元 对 于 m 个 输入 信号 的 响应 , 称 为 变换 函数 或 激活 函数 . 0; 
是 该 神经 元 的 阔 值 . 采用 如 下 记号 


nn n 
net; 一 D> wi — 0; = Dw (zo = 0;, wi = —1) (5.1.1) 


则 神经 元 ; 的 输出 值 y; 可 表示 为 


yi = f (net;) : (5.1.2) 
常见 的 变换 函数 有 
(a) 线性 函数 
f(s)=s (5.1.3) 
(b) 符号 函数 


f(s) = sgn(s) = | ， ?> (5.1.4) 


1， s<0 
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(c) 饱和 函数 
1， s > 到 
fl)=1 ks -i<s<i (5.1.5) 
-1， sc< - 
(d) 双 曲 线 正切 函数 
f(s) = th(s) = | =- i - (5.1.6) 
(e) 阶 跃 函数 
f(s) = | 1 2 (5.1.7) 
(f) Sigmoid 函数 1 
f(s) = To (5.1.8) 


图 5.3 常用 的 变换 函数 


一 些 重要 的 神经 网 络 算法 要 求 变换 函数 f 可 微 , 这 时 通常 选用 S 型 函数 , 即 
Sigmoid 函数 和 双 曲 线 正切 函数 . 选择 S 型 函数 作为 输出 函数 是 由 于 它 具 有 以 下 有 
用 的 特性 : 非 线性 单调 函数 , 无 限 次 可 微 , 权 值 很 大 时 逼近 立 值 函数 , 权 值 很 小 时 逼 
5.1.2 ”人 工 神经 网 络 的 构成 和 学 习 规则 


大 脑 神 经 网 络 系统 之 所 以 具有 思维 认识 等 高 级 智能 , 是 由 于 它 是 由 大 量 神经 元 
相互 连接 而 构成 的 一 个 复杂 的 神经 网 络 系统 . 人 工 神经 网 络 也 一 样 , 单个 神经 元 的 
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功能 极其 有 限 , 只 有 许多 神经 元 按 一 定 的 方式 连接 构成 的 神经 网 络 才 具有 强大 的 功 
能 . 与 生物 神经 网 络 中 神经 元 数量 庞大 、 神 经 元 结构 有 所 差别 、 神 经 元 的 连接 方式 
具有 不 同 的 形态 相 比 , 人 工 神 经 网 络 是 由 数量 远 少 于 前 者 的 、 结构 相同 的 神经 元 按 
一 定 规律 构成 的 网 络 ， 这 种 简化 很 大 程度 上 是 由 于 完全 模拟 的 物理 困难 和 计算 的 
简便 . 

人 工 神经 网 络 的 连接 形式 其 拓扑 结构 可 以 有 很 多 种 类 , 但 大 致 可 以 归纳 为 图 
5.4 所 示 的 两 种 形式 : 阶层 型 和 全 互 连 型 . 阶层 型 网 络 中 的 每 一 个 神经 元 只 能 与 相 
邻 层 的 神经 元 发 生 相互 作用 , 而 与 本 层 的 其 他 神经 元 不 发 生 信 息 传 递 . 全 互 连 型 网 
络 中 的 每 一 个 神经 元 可 与 其 他 所 有 的 神经 元 发 生 相互 作用 . 阶层 型 网 络 的 层 数 和 
各 层 神 经 元 的 个 数 根据 要 求 可 以 不 同 , 全 互 连 型 网 络 的 神经 元 个 数 也 可 根据 要 求 有 
所 不 同 . 


| 2 hn 
5.4 人 工 神 经 网 络 的 连接 形式 
(a) 阶层 型 ; (b) 全 互 连 型 


一 个 神经 网 络 的 拓扑 结构 确定 之 后 , 为 了 使 它 具 有 某 种 智能 特性 , 还 必须 有 相 
应 的 学 习 (或 训练 ) 规则 与 之 配合 . 

对 于 大 脑 神经 系统 而 言 , 不 同 的 功能 区 域 均 
有 各 自 的 学 习 规 则 , 这 些 巧妙 而 完善 的 学 习 规 则 
是 大 脑 在 进化 过 程 中 通过 学 习 得 到 的 . 对 于 人 工 
神经 网 络 而 言 , 其 学 习 问 题 归 根 结 底 就 是 网 络 连 
接 权 的 调整 问题 . 网 络 连接 权 的 确定 通常 有 两 种 
方法 . 一 种 是 根据 问题 的 具体 要 求 直 接 计 算 , 后 
面 要 讨论 的 Hopfield 网 络 作 优化 计算 时 就 属于 
这 种 情况 ; 另 一 种 是 通过 学 习 得 到 的 , 大 多 数 神 
经 网 络 都 使 用 这 种 方法 . 其 学 习 规 则 可 由 图 5.5 
描述 . 由 式 (5.1.1)~(5.1.2) 可 知 , 网 络 对 模式 的 图 5.5 学习 过 程 示 意图 
判断 取决 于 神经 元 的 输出 , 即 取 决 于 神经 元 的 连 
接 权 , 当 将 一 个 给 定 初始 连接 权 值 的 网 络 应 用 于 模式 识别 时 , 如 果 网 络 给 出 正确 的 
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判断 , 这 样 的 行为 应 该 得 到 增强 (提高 权 值 ); 反之 如 果 网 络 给 出 错误 的 判断 , 这 样 
的 行为 应 该 减少 ( 减 小 权 值 ). 这 样 的 连接 权 的 调整 经 过 大 量 次 数 的 重复 之 后 , 网 络 
对 于 模式 的 记忆 就 分 布 在 网 络 所 有 神经 元 的 连接 权 上 ， 当 网 络 再 对 任意 一 个 模式 
进行 判别 时 就 能 进行 正确 的 识别 . 

从 网 络 学 习 过 程 的 方式 而 言 , 可 以 分 为 有 教师 (或 有 监督 ) 学 习 和 无 教师 (或 无 
监督 ) 学 习 . 在 有 教师 学 习 方 式 中 , 对 于 网 络 的 学 习 结 果 , 即 网 络 输 出 的 正确 性 必须 
有 一 个 评价 标准 , 网 络 根据 实际 输出 与 评价 标准 的 比较 , 决定 连接 权 的 调整 量 . 这 
个 评价 标准 是 人 为 地 从 外 界 提供 给 网 络 的 , 相当 于 有 一 位 知晓 正确 结果 的 教师 示 教 
给 网 络 . 这 种 有 教师 学 习 方 式 的 原理 如 图 5.6(a) 所 示 . 另 一 种 重要 的 学 习 方 式 是 无 
教师 学 习 , 它 是 一 种 自 组 织 学 习 , 即 网 络 的 学 习 过 程 完全 是 一 种 目 我 学 习 过 程 , 不 
存在 外 部 教师 的 示 教 , 网 络 能 够 根据 其 特有 的 网 络 结构 对 属于 同一 类 的 模式 进行 自 
动 分 类 , 可 以 认为 , 这 种 网 络 的 学 习 评价 标准 隐 舍 于 网 络 的 内 部 . 无 教师 学 习 方 式 
的 原理 如 图 5.6(b) 所 示 . 


学 习 系 统 


图 5.6 
(a) 有 教师 学 习 ; (b) 无 教师 学 习 


网 络 的 学 习 规则 是 多 种 多 样 的 , 但 几乎 所 有 神经 网 络 的 学 习 规则 都 可 以 看 作 
Hebb 规则 的 变形 . 所 谓 Hebb 规则 , 是 Donall Hebb 根据 生理 学 中 条 件 反 射 机 理 于 
1949 年 提出 的 神经 元 连接 强度 变化 的 规则 , Hebb 规则 假定 , 当 两 个 神经 元 同时 兴 
奋 时 , 它们 之 间 的 连接 强度 应 该 增加 . 在 人 工 神经 网 络 中 Hebb 算法 可 描述 为 : 如 
果 神 经 元 j 接受 来 自 神经 元 i 的 输出 , 则 当 这 两 个 神经 元 同时 兴奋 时 , 它们 之 间 的 
连接 权 就 应 当 增 强 , 用 数学 公式 表示 为 

Awii = Wyi (t 十 1) 一 wii(t) = NYjTi (5.1.9) 
式 中 , x; 为 神经 元 i 的 输出 ; y; 为 神经 元 了 的 输出 ; wji(t) 为 第 t+1 次 调节 前 神经 
元 i 和 j 之 间 的 连接 权 值 ; wji(t + 1) 为 第 t+1 次 调节 后 神经 元 i 和 了 之 间 的 连接 


权 值 ; Aw;; 为 连接 权 的 调整 量 ; 7 为 学 习 (或 训练 ) 速率 系数 . 
无 论 哪 种 形式 的 神经 网 络 都 有 一 个 共同 的 特点 : 网 络 的 学 习 和 工作 运行 取决 
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于 各 神经 元 连接 权 的 动态 演化 过 程 ， 某 些 拓扑 结构 相同 的 神经 网 络 会 具有 不 同 的 
功能 和 特性 , 是 因为 它们 具有 不 同 的 学 习 和 工作 规则 , 即 不 同 的 连接 权 的 动态 演化 
规则 . 可 见 决定 一 个 网 络 性 质 的 主要 因素 有 两 点 : 一 是 网 络 的 拓扑 结构 , 男 一 个 是 
网 络 的 学 习 和 工作 规则 , 两 者 结合 起 来 构成 一 个 网 络 的 主要 特征 . 


5.2 感 知 器 


5.2.1 单 输出 单元 感知 器 


美国 学 者 F.Rosenblatt 于 1957 年 在 MP 模型 和 Hebb 学 习 规 则 的 基础 上 提出 . 
了 具有 自学 习 能 力 的 感知 器 (perceptron) 模型 B83. 
最 简单 的 感知 器 的 结构 如 图 5.7 所 示 . 它 相 a 


当 于 一 个 具有 m 个 输入 节点 的 神经 元 , n 个 输入 输入 y 
21 ,Xn 以 相应 的 权 值 wi,… ,wn 输入 计算 单元 ， XX 输出 
通过 一 个 符号 函数 式 (5.1.4) 作用 后 , 给 出 输出 信 和 

息 . 从 数学 上 说 , 即 其 输入 加 权 和 大 于 等 于 阔 值 时 ， ”图 5.7 感知 器 结构 示意 图 


输出 为 1 ; 否则 为 -1. 用 公式 表示 即 输出 值 y 为 


y = sgn (> WiTi 一 9] . (5.2.1) 
\i=1l 

单个 神经 元 感知 器 与 MP 模型 的 不 同 之 处 在 于 神经 元 之 间 的 耦合 程度 ( 即 连接 权 
向 量 ) 可 变 , 这 样 它 就 具有 学 习 功 能 了 . 网 络 学 习 的 目的 是 对 两 类 输入 模式 进行 正 
确 的 分 类 , 即 通过 对 模式 样本 的 学 习 , 能 够 对 输入 模式 进行 “0 "，*1” 分 类 . 

假定 我 们 已 有 了 已 知 两 种 模式 的 N 个 训练 样本 , 网 络 按 如 下 规则 进行 学 习 . 

(1) 设置 初 值 : 将 权 向 量 w(t = 0),i = 1,…,n 和 赣 值 9 赋予 (1, +1) 区 间 内 
的 随机 值 . 这 里 wi(t) 表示 t+1 次 修正 前 第 i(i = 1,2,…,n) 个 输入 节点 与 计算 单 
元 间 的 连接 权 . 

(2) 输入 一 个 样本 z = (zl 7x2,…,zn)t 和 它 的 期 望 输出 (教师 示 教 )#. 


(3) 计算 实际 输出 y = sgn | wz - ) 
(4) 修正 权 向 量 ww: 
wilt+i+1)= wi(lt) + Awilt), i1=0,1,...,n. (5.2.2) 
和 闹 值 
O(t +1) = 0() + A = 0 + i=0,l,..n. (5.2.3) 
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其 中 
| Auwi( = nl — YO) nd [5.2.4) 
Ab 人 = ng — y(t)] 三 906 的 
6(t) = 人 当 - y(t) 反映 期 望 输出 值 与 实际 输出 值 之 间 的 误差 , 也 称 为 学 习 信 号 . 

(5) 回 到 第 (2) 步 , 对 于 所 有 NN 个 训练 样本 反复 运用 步骤 (3)~(4), 直到 权 向 量 
w 和 溯 值 稳定 不 变 为 止 , 学 习 过 程 结 束 . 

学 习 率 n 通常 取 值 为 0 < 9 < 1, 用 于 控制 修正 速度 . m 太 小 , 权 向 量 w 收敛 
太 慢 ; nw 太 大 , 会 导致 权 向 量 w 不 稳定 . 所 谓 期 望 输出 值 少 是 对 样本 的 一 种 人 为 
分 类 . 比如 对 于 这 里 的 两 类 模式 判别 问题 , 可 以 规定 模式 “0 ”, “1” 的 期 望 输出 值 
分 别 为 -1 和 +1. 于 是 有 

2， 当 $=1，y(t)= 一 1 
6t)=9—yt)=$ 0 y= y(t) (5.2.5). 
-2， 当 j= 二 一 1， y(t)}=1 


上 式 说 明 , 当 $ = y(t), 期 望 输出 值 与 实际 输出 值 相 等 ， 连 接 权 不 需要 调整 ， 当 
关 y(t) 且 误 差 5(t) > 0, 说 明 权 值 w; 太 小 , 权 值 向 增 大 方向 调整 . 当头 y(t) 且 
误差 5(t) < 0, 说 明 权 值 w; 太 大 , 权 值 向 减 小 方向 调整 . 这 种 按照 期 望 输出 与 实际 
输出 的 误差 6 来 调节 连接 权 强 度 的 方法 称 为 6 规则 . 

学 习 结束 后 , 网 络 将 训练 样本 的 模式 以 连接 权 w = (wi,w2,… ,wn) ”和 阐 值 6 
的 形式 “记忆 ”下 来 . 当 给 网 络 提供 任意 输入 样本 时 , 网 络 按 该 样本 的 特征 向 量 值 
z = (zz .za 和 记 住 的 连接 权 w = (wiywa，……,aon)7 和 赋值 9 计算 输出 值 
y, 并 根据 y 为 +1 或 -1 判断 该 样本 属于 记忆 中 的 哪 一 种 模式 . 这 一 过 程 称 为 回 


5.2.2 ”多 输出 单元 感知 器 


多 输出 单元 感知 器 由 输入 层 和 输出 层 组 成 , 输入 层 的 神经 元 为 输入 节点 , 输入 
节点 的 个 数 与 模式 特征 变量 维 数 n 相等 , 直接 将 nn 
个 变量 值 传输 到 下 一 层 的 各 个 神经 元 . 输出 层 的 神 


” ”经 元 为 计算 单元 , 每 个 计算 单元 可 接受 前 一 层 所 有 
mw _ 。w 节点 的 输入 , 但 只 有 一 个 输出 , 输出 层 神经 元 的 个 

。” ，。 。 数 等 于 待 识别 的 模式 的 种 类 数 c. 同一 层 内 的 节点 
, 之 间 没 有 相互 作用 .图 5.8 是 多 输出 单元 感知 器 的 


元 感知 器 示意 图 不 意图 . 
图 5.8 多 输出 单元 示意 图 假定 输入 的 增 广 特征 向 量 为 m = (1,z1,z2， 


….,znjz， 输 出 层 各 单元 的 阐 值 为 6 = (9 ,6)T, 输入 层 与 输出 层 各 单元 间 
的 连接 权 为 wji(j = 1,…,c, i = 1,2,…,n) 是 输入 单元 i 和 输出 单元 了 之 间 的 连 


5.2 感 知 器 .95 ， 


接 权 , wjo = 一 0;(7 = 1,.…,c) 为 输出 层 各 单元 的 阔 值 . 因此 增 广 权 和 矩阵 为 


WIoO Wil WI2 2 Win 
Wa0 Wol Wag om 

Wexnty=| .+ . . (5.2.6) 
We tcl Wes 27 Won 


分 类 器 学 习 的 目标 是 通过 调整 权 值 使 网 络 由 给 定 的 输入 模式 类 得 到 给 定 的 输 
出 值 . 用 已 知 类 别 的 样本 集 作为 训练 集 , 当 输 入 ; 类 样本 时 , 使 对 应 于 该 类 的 输出 
yy 三 1, 而 其 他 计算 单元 的 输出 为 -1 这 是 我 们 期 望 的 输出 值 . 设 期 望 的 输出 为 


y 一 (t,o, 5 , De)™ 
根据 输入 特征 向 量 计算 得 到 的 输出 为 


yy 二 人 


其 中 
yj = f (net;) 
nn 二 1,2,...,C .2.7 
net; 一 人 ti 6 ) 
i=0 
为 了 使 计算 得 到 的 输出 逼近 期 望 的 输出 , 对 权 值 和 阔 值 作 如 下 的 调整 
wii(t+1) = wii(t) + Avw;ilt), i=0,1,..…,n, 7=1,...,c. (5.2.8) 
其 中 
Awi(t) = ni [0; — (0) = mid;(t). (5.2.9) 


由 此 , 我 们 可 得 出 双 层 感知 器 的 学 习 规 则 . 假定 我 们 已 有 了 N 个 已 知 类 别 分 
别 为 m = 1,2,…,c 的 训练 样本 , 网 络 按 如 下 规则 进行 学 习 . 

(1) 设置 初 值 : 将 连接 权 W 各 元 素 赋 予 (1,+1) 区 间 内 的 随机 值 . 

(2) 输入 一 个 m 类 样本 zm = (1,z7',zP,…, zm)T 和 它 的 期 望 输出 (教师 示 
教 ) 9" = (后 条 Fn = 1 Fn = 1, j= 1,2,...,c. 

(3) 计算 输出 层 各 单元 输出 


La 
= (Dr) 7 =1,2,...,c 
2 一 0 
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(4) 修正 连接 权 W 各 元 素 
wsilt 十 1) 一 wii(t) 十 Avw;i(t), ? 一 0,1, ‘Nn, 7=1,.…,c. 
其 中 


Awji (t) = N77 [7 一 y7"(#)| 三 nz 07 (t). 

(5) 回 到 第 (3) 步 , 对 于 该 样本 zm 反复 运用 步骤 (3)~(4), 直到 连接 权 W 稳 
定 不 变 为 止 . 

(6) 回 到 第 (2) 步 , 对 于 所 有 个 训练 样本 反复 运用 步骤 (2)~(5), 直到 连接 权 
W 稳定 不 变 为 止 , 学 习 过 程 结束 . 

Rosenblatt 从 数学 上 给 出 了 严格 的 证 明 (参见 文献 [32]), 对 于 线性 可 分 的 样本 
集 , 感知 器 算法 是 收敛 的 , 就 是 说 W 一 定 存在 , 并 且 学 习 过 程 在 有 限 次 迭代 后 得 以 
完成 . 对 于 非 线 性 可 分 的 样本 集 , 感知 器 算法 会 发 生 振 荡 , W 不 收敛 . 虽然 感知 器 
只 能 对 线性 可 分 的 输入 模式 进行 正确 分 类 , 但 它 作 为 人 工 神经 网 络 的 初期 模型 , 特 
别 是 其 自学 习 自 组 织 的 思想 , 对 于 人 工 神经 网 络 理论 的 研究 和 发 展 产生 了 深远 的 影 
响 . 


5.3 ”多 层 前 同 神 经 网 络 和 误差 逆 传 播 算法 


前 问 神 经 网 络 是 一 种 层 状 结构 的 神经 网 络 , 第 一 层 为 输入 层 , 最 后 一 层 为 输出 
层 , 中 间 各 层 为 隐 含 层 , 可 以 有 多 个 隐 舍 层 . 输入 层 的 神经 元 为 输入 节点 , 其 他 各 层 
为 计算 单元 . 输入 节点 的 个 数 与 模式 特征 变量 维 数 ” 相等, 直接 将 n 个 变量 值 传输 
到 下 一 层 的 各 个 神经 元 . 每 个 计算 单元 可 接受 前 一 层 所 有 节点 的 输入 , 但 只 有 一 个 
输出 , 该 输出 耦合 到 下 一 层 的 所 有 神经 元 . 同一 层 内 的 节点 之 闻 没 有 相互 作用 . 输 
出 层 神 经 元 的 个 数 等 于 待 识 别 的 模式 的 种 类 数 c. 对 于 c=2 的 两 类 模式 识别 问题 ， 
输出 层 神 经 元 的 个 数 可 以 为 1, 其 二 值 输出 (0,1) 或 (-1;+1l1) 表示 两 种 不 同 模式 的 
判别 结果 . 隐 含 层 的 节点 数 没有 明确 的 规则 可 以 遵循 , 一 般 来 说 , 问题 越 复杂 , 需要 
的 单元 数 越 多 . 图 5.9 是 一 个 四 层 前 向 神经 网 络 的 结构 示意 图 . 


图 5.9 四 层 前 向 神经 网 络 结构 示意 图 


5.3 ”多 层 前 向 神经 网 络 和 误差 道 传播 算法 .97 : 


对 于 非 线 性 可 分 的 样本 集 , 感知 器 算法 不 收敛 这 一 缺点 , 利用 包含 隐 含 层 的 多 
层 前 向 神经 网 络 能 够 克服 . 多 层 前 馈 网 络 的 学 习 算 法 比较 复杂 , 其 主要 困难 在 于 中 
间 的 隐 舍 层 不 直接 与 网 络 的 输出 连接 , 无 法 直接 计算 其 误差 .为 了 解决 这 一 问题 ， 
提出 了 误差 道 传播 (back-propogation, 简称 BP) 算法 Ba 其 主要 思想 是 从 后 向 前 
(北向 ) 传播 输出 层 的 误差 , 以 间接 算出 隐 含 层 的 输出 误差 . 算法 分 为 两 个 阶段 : 第 
一 阶段 ( 正 向 过 程 ), 输入 信息 从 输入 层 经 过 隐 含 层 到 输出 层 逐 层 计 算 各 单元 的 输 
出 值 ; 第 二 阶段 (误差 道 传播 过 程 ), 输出 误差 逐 层 从 后 向 前 算出 陷 含 层 各 单元 的 输 
出 误差 , 并 用 此 误差 修正 各 层 之 间 的 权 值 . 利用 误差 逆 传 播 算法 的 多 层 前 馈 网 络 常 
称 为 BP 网 络 . 


5.3.1 BP 网 络 学 习 算 法 


BP 网 络 中 通常 采用 梯度 法 修正 权 值 , 为 此 要 求 输出 函数 可 微 , 通常 采用 Sig- 
moid 函数 作为 输出 函数 . 不 失 普遍 性 , 我 们 研究 某 一 层 第 ; 个 计算 单元 . 在 下 面 的 
狼 述 中 , 角 标 i 代表 其 前 一 层 的 第 i 个 单元 , 角 标 k 代表 其 后 一 层 的 第 个 单元 
0; 代表 本 层 单元 ; 的 输出 , 0; 代表 前 一 层 单元 i 的 输出 . wj 代表 本 层 单元 j 与 
前 一 层 单元 i 间 的 权 值 

当 输入 某 个 类 别 已 知 的 样本 的 增 广 特征 向 量 = = (1,z1,z2,…,zn)7 时 , 从 前 
向 后 ( 正 向 算法 ) 对 各 层 单元 计算 其 总 输入 net; 和 输出 O) 


net; 一 >》 wiiOs (5.3.1) 


O; 一 f (net;) (5.3.2) 


当 考 虑 的 是 输出 层 的 单元 ; 时 , 实际 输出 是 yy = 0;. 假定 此 样本 的 期 望 输出 用 乡 
表示 , 网 络 对 于 此 样本 的 输出 误差 5 可 表示 为 


B= 5 B= 5%-y) (5.3.3) 


我 们 的 目标 是 寻找 一 组 各 层 (包括 隐 含 层 和 输出 层 ) 的 权 和 矩阵 , 使 得 误差 目标 函数 
EE 达到 极 小 . 优化 计算 的 方法 很 多 , 其 中 常用 的 一 种 是 一 阶梯 度 法 , 即 最 速 下 降 法 . 
下 面具 体 介绍 这 种 方法 . 
由 于 单元 了 总 输入 net; 的 变化 导致 样本 误差 忆 的 变化 可 用 梯度 值 表示 
OF 

Onet; 
网 络 学 习 的 目的 是 求 得 适当 的 权 值 , 为 此 考虑 单元 7 的 权 值 wii 的 变化 对 样本 误 
差 忆 的 影响 , 可 有 


OP OE Anet; 
OWwsji 和 Onet; OWwjs 
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pnet, 0 
5 = 一 5 = O; (5.3.5) 
是 权 值 wj; 的 变化 对 于 j 单元 总 输入 net; 的 变化 的 速率 (梯度 ). 因此 可 得 
Be = 6,0; (5.3.6) 
权 值 ws 的 修正 应 该 向 样本 误差 减 小 的 方向 进行 , 即 向 负 样 度 DD = -一 
-510; 方向 进行 , 因此 权 值 的 修正 为 
Awii = -06j0; = nD (5.3.7) 
其 中 , 9 (9 > 0) 是 权 值 的 修正 系数 . 
wiilt +1) = wi(t) + Awsi(t) (5.3.8) 
如 果 节点 ; 是 输出 单元 , 则 
0; = Y; 
EB _ Ob OY —(9; — Y)f (net;) (5.3.9) 


一 Onet; Oy; Onet; 
如 果 节 点 j 不 是 输出 单元 , 则 节点 j 的 输出 O; 对 后 层 的 全 部 节点 都 有 影响 , 因此 


Gc 


= 2 6ktky (net) (5.3.10) 


其 中 ， 计算 用 到 式 (5.3.2); 计算 ef 和 用 到 式 (5.3.1); 和 则 由 输出 层 的 5 值 


后 向 前 逐 层 反 和 得 到 | 
对 于 Sigmoid 函数 ， 
1 
"1 2 (5.3.11) 
f'(s) = (re YL 一 功 
或 者 利用 双 曲 线 函 数 作 为 变换 函数 , 则 有 
y= f(s)= ths 


5.3.12 
f'(s)=1-this=1— ( ) 


5.3 ”多 层 前 向 神经 网 络 和 误差 逆 传 播 算法 . 99 . 


综 上 所 述 , 我 们 得 到 反 向 传播 算法 的 学 习 规则 如 下 . 假定 我 们 已 有 了 已 知 c 种 
模式 的 NN 个 训练 样本 , 网 络 按 如 下 规则 进行 学 习 . 

(1) 设置 初 值 : 将 连接 权 W 各 元 素 赋予 (-1,+1) 区 间 内 的 随机 值 , 设 定 修正 
系数 7 (7 > 0), 设 定 收敛 值 <. 

(2) 输入 一 个 样本 zm = (zz 了 xz2)7 和 它 的 期 望 输出 (教师 示 教 ) 
9” = ( 近 , 好 多) 并 作 如 下 计算 

(a) 从 前 向 后 逐 层 计算 各 单元 输出 O; 


net; = DwiiO: 
O; =1/(1—e ne) 


(b) 计算 输出 y™ 与 期 望 输出 "的 欧 氏 距离 d, 车 d 小 于 收敛 值 = 即 认 为 连 
接 权 W 稳定 , 执行 第 3 步 ; 否则 , 执行 下 一 步 . 
(c) 从 后 向 前 逐 层 计算 67 
输出 层 6; = (97° — O07)0;(1 ~ O;) 
隐 含 层 57 01 07) 2 with 
(d) 计算 并 保存 各 权 值 修正 量 
Awji (2) 一 一 007C 
(e) 修正 连接 权 WW 各 元 素 
Wj (t 十 1) = Wj (加 十 Awsji (#) 


(f) 回 到 (a). 

(3) 回 到 第 (2) 步 , 对 于 所 有 NN 个 训练 样本 反复 运用 步骤 (2), 直到 对 所 有 样本 
欧 氏 距离 d 都 小 于 收敛 值 <, 这 时 各 层 连接 权 W 即 为 问题 的 解 , 学 习 过 程 结束 . 

上 述 学 习 方 法 是 对 于 每 个 训练 样本 逐个 地 进行 权 值 修正 的 , 这 种 方法 也 称 为 标 
准 的 误差 道 传播 算法 . 它 的 计算 流程 图 如 图 5.10 所 示 . 

二 层 前 馈 网 络 的 收敛 性 不 受 初始 值 影响 . 三 层 以 上 的 前 馈 网 络 使 用 误差 逆 传 揪 
算法 时 , 收敛 性 受 初始 值 影响 . 通常 用 较 小 的 随机 数 (例如 土 0.3 区 间 ) 作为 权 值 的 
初 值 . 当 计算 不 收 敏 时 , 可 以 改变 初始 值 再 试验 . 

BP 算法 实质 上 是 把 一 组 样本 的 判别 问题 转化 为 一 个 非 线 性 优化 问题 , 并 通过 
梯度 法 利用 迭代 运算 求解 权 值 的 一 种 学 习 方 法 . 已 经 证 明 , 利用 Sigmoid 函数 作为 
变换 函数 的 三 层 BP 网 络 可 以 以 任意 精度 逼近 任意 连续 函数 ， 也 就 是 说 , 三 层 BP 
网 络 原则 上 可 以 解决 任意 非 线性 的 分 类 问题 . 这 是 BP 网 络 的 一 个 显著 的 优点 ， 也 
使 得 它 在 分 类 器 中 得 到 广泛 的 应 用 . 
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c 满 足 要 求 耕 ? 


从 后 向 前 逐 层 计算 误差 梯度 
计算 并 保存 各 权 值 修正 量 


图 5.10 ”误差 道 传播 算法 流程 图 


但 是 BP 网 络 也 存在 以 下 一 些 缺 点 : 

(1) 由 于 采用 梯度 算法 , 容易 陷入 局 部 极 小 而 得 不 到 全 局 极 小 点 . 能 否 收敛 到 
全 局 极 小 往往 取决 于 初始 值 . 

(2) 次 定 收敛 速度 的 权 值 修正 系数 (学 习 率 )n 的 确定 依赖 于 尝试 和 经 验 . 

(3) 目标 函数 E 是 全 体 连 接 权 的 函数 , 要 寻 优 的 参数 (各 层 的 连接 权 和 矩阵 的 所 
有 元 素 ) 很 多 , 导致 收敛 速度 慢 . 

(4) 对 于 三 层 BP 网 络 , 其 输入 、 输 出 层 的 节点 数 由 问题 本 身 决定 , 输入 层 节点 
数 等 于 特征 向 量 维 数 , 输出 层 节点 数 等 于 模式 类 数 . 但 隐 含 层 的 节点 数 的 确定 缺乏 
理论 指导 和 有 效 的 方法 . 对 于 三 层 以 上 的 BP 网 络 , 隐 含 层 的 数目 和 节点 数 的 确定 
存在 同样 的 困难 . 


5.3.2 ”BP 网 络 学 习 算法 的 改进 

为 了 克服 BP 网 络 收敛 速度 慢 的 缺点 , 对 于 BP 网 络 学 习 算 法 的 改进 作 了 广泛 
的 研究 , 提出 了 许多 改进 方案 . 下 面 介绍 比较 典型 而 且 简 便 的 几 种 . 

1. 全 局 误差 极 小 化 方法 

标准 的 误差 逆 传 播 算法 是 使 单个 样本 的 误差 函数 达到 极 小 的 一 阶梯 度 法 作 
优化 计算 的 , 这 种 方法 偏离 了 全 局 误差 意义 上 的 梯度 下 降 ， 因 为 我 们 要 解决 的 是 c 
个 类 别 样本 的 分 类 问题 , 所 以 对 于 权 值 进行 调节 时 必须 考虑 c 个 类 别 样本 的 全 局 误 
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差 
假定 分 类 器 要 区 分 c 种 类 别 , 当 输 入 类 别 m(m = 1,2,…,c) 的 一 个 训练 样本 ， 
可 计算 其 误差 函数 Bom), 全 局 误差 函数 巨 定义 为 


E= 》 万 fm). (5.3.13) 
m=1 


全 局 误差 逆 传 播 算法 依靠 对 全 局 误差 函数 EE 作 极 小 化 计算 推导 , 因此 需要 将 一 组 
c 个 模式 的 训练 样本 输入 网 络 后 , 再 调节 权 值 . 这 时 (5.3.7) 式 的 权 值 修正 需 修改 为 


Awji =nD=—n 》 7Or (5.3.14) 

由 此 可 得 全 局 误差 逆 传 播 算法 的 学 习 规 则 如 下 . 假定 我 们 已 有 了 N 组 已 知 类 
别 分 别 为 m = 1,2,…,c 的 c 个 训练 样本 , 网 络 按 如 下 规则 进行 学 习 . 

(1) 设置 初 值 : 将 连接 权 W 各 元 素 赋予 (-1, +1) 区 间 内 的 随机 值 , 设 定 修正 
系数 7 (7 > 0), 设 定 收敛 值 <. 

(2) 依次 输入 一 组 m (m=1,2,…… ,C) 类 样本 zm = (1,zT, zm,… ,Xm)T 和 它 的 
期 望 输 出 (教师 示 教 ) j" = (名 ,多 ，,… ,9 )T, 并 作 如 下 计算 

(a) 对 每 一 个 输入 样本 作 如 下 计算 

从 前 向 后 逐 层 计算 各 单元 输出 O7 


net™ = >》 0507 
OF =1/(1-e 9 ) 


(b) 计算 每 个 样本 的 输出 y™ 与 期 望 输出 加 的 欧 氏 距离 am, 车 该 组 c 个 样 
本 的 dm < s(m = 1,2,.…,c), 即 认为 连接 权 W 稳定 , 执行 第 (3) 步 ; 否则 , 执行 下 
一 步 . 

(c) 从 后 向 前 逐 层 计算 69 

输出 层 67 = (9 — OF )OF(1 — OF) 

隐 含 层 67 = OF(1 — OF) SY wer 

k 


(d) 对 该 组 c 个 类 型 的 样本 作 如 下 计算 
计算 并 保存 各 权 值 修正 量 


Aujii 伯 一 -7 》 57OP 
m=1 
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修正 连接 权 W 各 元 素 
wilt + 1) = w(t) + Awyilt). 


回 到 步骤 (a). 

(3) 回 到 第 (2) 步 , 对 于 所 有 N 组 训练 样本 反复 运用 步骤 (2), 直到 对 所 有 样本 
欧 氏 距离 d 都 小 于 收敛 值 e, 这 时 各 层 连 接 权 W 即 为 问题 的 解 , 学 习 过 程 结束 . 

在 网 络 的 一 次 学 习 中 , 全 局 误差 道 传 播 算法 中 权 值 调整 一 次 , 相当 于 标准 的 误 
差 逆 传播 算法 中 权 值 调整 c 次 , 因而 权 值 的 调整 次 数 明显 减少 , 对 于 多 类 分 类 器 学 
习 时 间 大 大 缩短 , 对 于 训练 样本 集 不 太 大 的 情况 , 收敛 速度 比较 快 . 但 是 这 种 算法 
将 各 种 模式 的 误差 平均 化 , 在 有 些 情况 下 会 引起 网 络 的 振荡 . 

2. 引入 惯性 修正 项 

所 谓 惯性 修正 项 , 就 是 每 一 次 对 权 值 进行 修正 时 , 按 一 定 比例 加 上 前 一 次 的 权 
值 修正 量 , 即将 式 (5.3.7) 修改 为 


Awsjilt) 一 nD(t) 十 GAU (t 一 1) (5.3.15) 


其 中 , mD(t) = 一 n6;O; 是 本 次 修正 量 ; Awji(t - 1) 是 上 次 修正 量 ; a (1 > a > 0) 是 
惯性 项 的 比例 修正 系数 .惯性 项 的 引入 实际 上 是 考虑 前 一 次 权 值 修正 时 的 梯度 方 
向 . 当 上 一 次 修正 过 量 时 , 惯性 项 与 本 次 算得 的 修正 量 反 号 , 使 得 Awjilt) 减 小 以 减 
小 振荡 ; 当 上 一 次 修正 欠 量 时 , 惯性 项 与 本 次 算得 的 修正 量 同 号 , 使 得 Aw;j;(t) 增 
大 以 加 速 收 敛 . 通常 情况 下 , a 可 取 0.9 或 附近 的 值 . 
3 变 步 长 法 
一 阶梯 度 法 寻 优 收敛 较 慢 的 一 个 重要 原因 是 学 习 率 7 不 好 选择 , y 太 小 , 收敛 
太 慢 ; 7 太 大 则 可 能 过 修正 , 导致 振荡 甚至 发 散 . 变 步 长 法 是 针对 该 问题 提出 的 改 
进 方 案 . 权 值 的 修正 由 下 式 表示 
Awsi(t) = 7(t) Dt) 
nt) = 2*n(t — 1) (5.3.16) 
A=sgn[D(t) Dt — 1)] 


这 样 , 当 连 续 两 次 修正 中 其 梯度 方向 相同 时 (D(t) 与 D(t 一 1) 同 号 ), 表明 修正 量 不 
征 , 可 使 步 长 加 倍 , 以 加 速 收敛 ; 当 连 续 两 次 修正 中 其 梯度 方向 相反 时 , 表明 修 
正 量 过 度 , 可 使 步 长 n 减 半 , 以 避免 振荡 当 需要 引入 惯性 项 时 , 只 需 将 上 式 中 的 
Awji(t) 用 式 (5.3.15) 计算 并 将 9 用 n(t) 计算 即 可 . 当 使 用 该 算法 时 , 由 于 步 长 在 
迁 代 过 程 中 自 适 应 进行 调整 , 因此 对 于 不 同 的 连接 权 系数 实际 上 采用 了 不 同 的 学 习 
率 , 也 就 是 说 误差 目标 函数 在 超 曲 面 上 在 不 同 的 方向 按照 各 自 比较 合理 的 步 长 
向 极 小 点 区 近 . 
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5.4 Hopfield 神经 网 络 


Hopfield 神经 网 络 是 美国 物理 学 家 J.J. Hopfield[34 于 1982 年 首先 提出 的 , 它 
主要 用 于 模拟 生物 神经 网 络 的 记忆 机 理 . 与 前 述 的 前 馈 网 络 不 同 , Hopfield 网 络 是 
一 种 全 连接 型 网 络 . 网 络 的 基本 单元 是 与 前 馈 网 络 类 似 的 神经 元 , 它 的 结构 是 单 层 
的 , 各 单元 地 位 平等 , 每 个 神经 元 与 所 有 其 他 神经 元 连接 . 对 于 每 一 个 神经 元 而 言 ， 
自己 的 输出 信号 通过 其 他 神经 元 又 反馈 到 自己 , 所 以 Hopfield 神经 网 络 是 一 种 反 
馈 型 网 络 . 

Hopfield 神经 网 络 分 为 离散 型 (DHNN) 和 连续 型 (CHNN) 两 种 . 

Hopfield 神经 网 络 状 态 的 演变 过 程 是 一 个 非 线 性 动力 学 动态 过 程 , 可 以 用 一 组 
非 线 性 差分 方程 (对 于 DHNN) 或 微分 方程 (对 于 CHNN) 来 描述 . 系统 的 稳定 性 
可 用 “能 量 函 数 ”( 即 李 雅 普 诺 夫 或 哈密 顿 函数 ) 进行 分 析 . 在 满足 一 定 条 件 下 , 能 量 
函数 在 网 络 运行 过 程 中 不 斯 减 小 , 最 后 趋 于 稳定 态 , 称 为 吸引 子 . 对 于 一 个 非 线性 
动力 学 系统 , 系统 状态 从 某 一 初 态 出 发 , 经 过 演变 后 , 既 可 能 到 达 稳 定 态 , 也 可 能 到 
达 有 界 振荡 态 (极限 环 ) 、 混 沌 态 或 发 散 . 但 对 于 变换 函数 为 有 界 函数 的 人 工 神 经 
网 络 , 不 会 产生 发 散 现象 . Hopfield 神经 网 络 在 某 些 情况 下 还 有 随机 性 和 不 可 预测 
性 . 人 们 可 以 从 不 同 的 方面 利用 这 些 复杂 的 性 质 来 完成 各 种 计算 功能 . 


5.4.1 ”离散 Hopfield 网 络 


1. 网 络 结构 和 工作 方式 

离散 Hopfield 网 络 DHNN 是 一 种 单 层 的 输入 、 输 出 均 为 二 值 的 反馈 网 络 , 主要 
用 于 联想 记忆 . DHNN 的 结构 如 图 5.11 所 示 . 对 于 待 分 类 的 模式 向 量 有 m 个 分 量 的 
情形 , 需 用 ”个 节点 的 离散 Hopfield 网 络 . 网 络 状态 用 向 量 x = (zi,za,……,zn)i 表 
示 , 各 分 量 是 n 个 神经 元 的 输出 , 且 z; 仅 取 +1 和 -1 两 个 值 . 9 = (1 02 … ;bn) 
为 叶 个 神经 元 的 阔 值 向 量 . = [W1],,、。 为 网 络 的 连接 权 和 矩阵 , 其 元 素 wi; 表示 
神经 元 i 和 j 之 间 的 连接 权 . 权 和 矩阵 为 对 称 和 矩阵, 即 有 Wi = Wji. 若 对 角 元 素 为 0， 
即 ws = 0, 则 称 网 络 为 无 自 反 馈 的 . 以 下 讨论 的 均 是 无 自 反馈 的 离散 Hopfield 网 
络 . 

描写 DHNN 状态 变化 的 方程 如 下 


| uilt 十 1) 一 》 wiry(t) — 0 
j=1 


zi(t+1) = sgn [u(t + 1)| 


(5.4.1) 


其 中 , zi(t) 为 为 任意 时 刻 t (t 为 正 整 数 ) 神经 元 i 的 状态 . DHNN 有 两 种 工作 方式 . 
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(1) 串 行 (异步 ) 方式 . 在 任 一 时 刻 , 只 有 某 一 个 神经 元 i( 按 固定 顺序 或 随机 选 
择 ) 按照 式 (5.4.1) 改变 状态 , 其 余 神经 元 状态 不 变 , 即 


5.11 DHNN 结构 


j=1 
Ti(t+1)= 72t), 了 天 1 


(2) 并 行 (同步 ) 方式 . 在 任 一 时 刻 , 有 部 分 神经 元 按照 式 (5.4.1) 改变 状态 , 其 
余 神 经 元 状态 不 变 . 其 中 最 重要 的 一 种 特殊 情况 为 所 有 神经 元 同时 按照 式 (5.4.1) 
改变 状态 , 称 为 全 并 行 方式 , 这 时 有 


zilt + 1) = sgn 了 Wi725 (一 1 (5.4.2) 


Zi(t+1) = sgn 0 一 1 ， i=1,2,.…,n (5.4.3) 


j=1 


若 网 络 从 某 一 初 态 z(0) 开始 , 经 过 有 限时 间 上 后 , 它 的 状态 不 再 发 生变 化 , 就 
达到 了 稳定 态 , 也 称 为 吸引 子 , 用 公式 表示 即 为 


;1 


Ti(t+1)= zi(t) = sgn 2 wazi(t) 一 | ， 一 1 2 用 (5.4.4) 


若 用 向 量 记 号 , 也 可 写成 
z=f(Wzr—0) (5.4.5) 


式 中 , f 是 sgn 函数 . 
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2. 网络 稳定 性 和 吸引 子 

从 上 述 工作 过 程 可 以 看 出 , DHNN 实质 上 是 一 个 离散 的 非 线性 动力 学 系统 . 如 
果 系 统 是 稳定 的 , 则 它 可 从 任 一 初 态 收敛 到 一 个 稳定 态 ; 震 系 统 是 不 稳定 的 , 由 于 
网 络 节点 输出 只 有 1 和 -1 两 个 值 ， 因此 系统 不 可 能 出 现 无 限 发 散 只 可 能 出 现 幅度 
为 2 的 自持 振荡 , 或 称 为 极限 环 . 

为 了 研究 网 络 的 稳定 性 , 定义 DHNN 网 络 的 能 量 函 数 (或 势 函 数 ) 


一 一 二 1y、 Viiz; 十 > Qir: (5.4.6) 


2 优生 1 


与 成 矩阵 形式 为 | 

= -37 We 十 ZIB (5.4.7) 
由 于 zi, zj 只 能 为 土 1, wij, 0: 有 界 , 因此 能 量 函 数 忆 是 有 界 的 . 若 从 某 一 初始 状 
态 开 始 , 网 络 每 次 状态 变化 都 能 满足 


AE= E(t+1)— E(t)<0 (5.4.8) 


即 能 量 函 数 单调 下 降 , 则 网 络 状 态 最 后 趋 于 一 个 稳定 点 . 
DHNN 网 络 工作 于 串 行 方式 时 式 (5.4.8) 成 立 . 证 明 如 下 : 当 DHNN 网 络 由 时 
刻 t 到 时 刻 t+1, 只 有 一 个 神经 元 i 的 状态 发 生变 化 , 这 时 有 


AE= E(t+1)— E(t) = Siwilt + 1)oj(t+ D+ D0 zi(t+1) 


1 
十 本 1 y oaitbm 的 - on 
“过 人 1 
考虑 到 wij = wjiswii = 0 以 及 zj(t 十 1) = zi 的 了 天 二 容易 得 到 


了 一 1,7 汉 1 


人 五 一 E(t 十 1) 一 E(t) 一 一 [zi(t 十 1) 一 zi(t)] ， | > Wij T7 (二 一 1 (5.4.9) 


由 于 zi, zj; 只 能 为 +1, 故 只 需 考虑 以 下 3 种 情况 : 
(1) zi(t 十 1) = zi(t), 由 式 (5.4.9) 立即 知 AE = 0. 


(2) zi(t+ 1)— zi(t) 一 2, 即 zi(t+t+1) 一 1, zi(t) 一 一 二 ， 由 式 (5.4.3) 知 SN ww lt) 
j=1 
一 0; > 0, 注意 到 Wii 一 0, 故 有 >》， Wijy tT; (t) 一 0; > 0, 即 由 式 (5.4.9) 知 AEB < 0. 


了 一 1 天 
(3) Zit + 1) — zilt) = -2, BT vilt + 1) = —1,zi(t) = 1, 由 式 (5.4.3) 知 
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》 wijzi(t) 一 0; < 0, 注意 到 wi; = 0, 故 有 > ”wizzj(t) 一 9; < 0, 即 由 式 (5.4.9) 
j=1 j=1 ji 
知 AE<0. 
可 见 , 网 络 如 果 发 生变 化 ,其 势 函 数 只 可 能 减 小 ， 注 意 到 n 个 节点 的 DHNN 
网 络 只 有 有 限 个 (2") 状态 , 最 终 一 定 会 到 达 势 函数 的 某 一 个 极 小 点 (平衡 态 ), 与 
该 点 相 邻 (只 某 一 个 zi 不 同 ) 的 点 的 势 函数 值 一 定 大 于 该 点 , 因此 该 平衡 态 是 孤立 
的 . 由 于 系统 是 非 线 性 的 , 可 以 有 多 个 孤立 平衡 态 . 从 系统 的 状态 空间 的 任何 一 点 
出 发 , 都 会 到 达 某 个 极 小 点 , 好 像 被 平衡 态 所 吸引 , 所 以 孤立 平衡 态 又 称 为 孤立 吸 
引子 . 到 达 某 个 吸引 子 的 所 有 出 发 点 的 集合 称 为 该 吸引 子 的 吸引 域 . 
吸引 子 有 如 下 性 质 : 如 果 状 态 向 量 z 是 网 络 的 一 个 吸引 子 , 且 阔 值 向 量 9 = 


0,》 uijzji #0, 则 一 x 也 一 定 是 网 络 的 吸引 子 . 证 明 如 下 : 由 于 z 是 吸引 子 , 且 6 = 
j=1 
0, 由 式 (5.4.5) 知 z = f(Wz), 从 而 有 7[IVWr(-z)] = fI-Wez] = 一 f[Wz] = 一 zx, 证 
毕 . 
对 于 全 并 行 方 式 的 DHNN 网 络 , 可 以 证 明 , 车 连 接 权 和 矩阵 为 非 负 定 对 称 矩 阵 ， 

则 对 任意 初 态 , 网 络 收敛 于 一 个 孤立 吸引 子 ; 车 连接 权 和 矩阵 为 负 定 对 称 和 矩阵 ， 则 网 
络 周期 振荡 , 极限 环 为 2. 

上 面 讨论 的 是 单元 状态 取 值 为 {+1, 一 1} 的 情况 . 对 于 单元 状态 取 值 {1，0} 的 
DHNN 网 络 , 上 述 结论 仍然 成 并 . 

由 于 异步 方式 比 同步 方式 有 更 好 的 稳定 性 , 实际 使 用 中 多 采用 异步 方式 . 异步 
方式 的 缺点 是 失去 了 神经 网 络 并 行 处 理 的 优点 . 

3. 网 络 的 联想 记忆 

从 上 述 分 析 可 知 , DHNN 网 络 存在 若干 个 吸引 子 . 如 果 将 网 络 所 有 的 吸引 子 看 
作 是 记忆 模式 的 集合 , 而 将 网 络 初 态 看 作 一 个 提示 模式 ( 即 发 生 某 些 变形 或 含有 噪 
声 的 记忆 模式 ), 那么 , 网 络 的 收敛 过 程 就 可 以 看 作 一 种 联想 记忆 过 程 . 我 们 的 希望 
是 从 一 个 提示 模式 下 回忆 出 一 个 记忆 模式 , 即 从 网 络 的 初 态 收敛 到 其 对 应 的 模式 . 
DHNN 网 络 吸引 子 的 个 数 是 网 络 记忆 的 一 种 测度 , 即 记忆 容量 .如 前 所 述 , DHNN 
网 络 的 记忆 容量 与 其 工作 方式 ( 串 行 或 并 行 ) 及 连接 权 和 立 值 W ,6 紧密 相关 . 

用 DHNN 实现 联想 记忆 需要 考虑 两 个 重要 问题 : 怎样 按 记忆 要 求 设 计 一 个 网 
络 ( 即 确定 网 络 的 W, 9) ; 网 络 设计 确定 后 , 如 何 分 析 其 记忆 容量 . 

首先 讨论 DHNN 网 络 的 W, 9 的 设计 . 假定 有 m 个 需要 记忆 的 n 维 模式 , W， 
6 的 设计 要 使 得 这 m 个 记忆 模式 对 应 的 状态 恰好 是 网 络 能 量 函 数 的 m 个 局 部 极 
小 点 . 这 是 一 个 相当 困难 的 问题 . W, 6 的 设计 方法 有 外 积 法 、 伪 道 法 、 正 交 化 设计 
法 等 . 下 面 仅 介绍 外 积 法 和 伪 逆 法 . 
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设 疝 量 zk = (zh, x, pk)T, k= 1,2,...,m, zt E {1, 一 1} 是 要 求 网 络 记 忆 的 
m 个 (m < m) 个 模式 向 量 , 它们 彼此 正 交 , 即 满足 


0， 1 天 7 


(z ) (97) = | (5.4.10) 
n, 1 一 7 
并 且 网 络 的 n 个 节点 的 阐 值 均 为 0: 9 = 0, 如 果 连 接 权 按 下 式 计算 
Ww = [seteor 如 
k=1 
即 
rerk ? 
Wi 一 2 四 7 (5.4.11) 
0， ;一 7 


其 中 , 了 为 n x n 阶 单位 矩阵 , 则 向 量 zw*,k = 1,2,.…,m 都 是 DHNN 网 络 的 稳定 
点 . 证 明 如 下 : 
从 2 = (75，… 2)T,k 二 1,2,.…,m 中 取 任 一 向 量 zi 作为 网 络 的 初始 输 
入 , 则 有 
We2x’ = >》 [wr (zw*)T 一 如 zz = [a (27)T — Ti + |z (ze)T 一 了 jz7 
k=1 k=1,k#i 


利用 正 交 性 式 (5.4.10), 即 得 
Wri = (n— 1)ei- (m1)ei= (nm— moe’ 
注意 到 (n 一 m) > 0 和 8 = 0, 所 以 网 络 的 输出 按照 式 (5.4.2) 为 
sgn(W 7’) = zi 


即 zj,7 = 1,2,.…,m 是 满足 条 件 式 (5.4.5) 的 mm 个 吸引 子 . 式 (5.4.11) 的 连接 权 算 
阵 是 要 求 网 络 记忆 的 m 个 (m < n) 模式 向 量 的 外 积 矩 阵 ， 所 以 构建 该 权 和 矩阵 的 方 
法 称 为 “外 积 ” 规则. 

外 积 规 则 要 求 网络 记 忆 的 m 个 (m < n) 模式 向 量 相 互 正 交 , 条 件 比 较 苛刻 . 
伪 逆 规则 只 要 求 模式 向 量 线 性 独立 , 条 件 较为 宽松 . 

连接 权 甜 阵 的 伪 逆 规则 如 下 : 设 向 量 zx*,k = 1,2,...,m 是 要 求 网 络 记忆 的 m 
个 (m < n) 模式 向 量 , 它们 彼此 线性 独立 . 令 


X= (2 22 (5.4.12) 
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是 n 行 m 列 盾 阵 , 由 于 矩阵 瑟 中 各 列 向 量 线性 独立 , 故 和 "XX 是 满 秩 矩阵 , 存在 
道 矩 阵 . 这 时 权 和 矩阵 可 由 下 式 求 得 : 


W =X(X'X) 'X!' = XX (5.4.13) 
其 中 , X+ = (XTX)-1IXT 是 矩阵 义 的 擅 道 . 可 以 简单 地 验证 
WX =X(XIX) (XTX)=X 


所 以 入 的 mm 个 列 向 量 都 是 网 络 的 吸引 子 . 

由 此 我 们 给 出 ”个 神经 元 的 DHNN 的 联想 记忆 的 以 下 学 习 算 法 : 

(1) 给 定 要 求 网 络 记 忆 的 ( 即 需要 对 输入 样本 作 分 类 的 类 别 ) m 个 (m < n) 模 
式 向 量 ww* = (x*, zt , TR)T, k= 1,2,...,m, zt € {1, 一 1}, 它们 彼此 正 交 或 线性 
独立 . 

(2) 按照 式 (5.4.11) 或 式 (5.4.13) 计算 连接 权 和 矩阵 元 . 

(3) 输入 一 个 样本 的 特征 向 量 值 z = (z1, xz2,…, zn) 了 ,zi € {1, 一 1} 作为 网 络 初 
始 状 态 向 量 z(t = 0) = [z1(0), z2(0),…… ,zn(0)]T. 

(4) 迭代 计算 : 按 式 (5.4.2) 所 示 的 DHNN 的 串 行 工作 方式 改变 网 络 状态 向 量 


rilt 十 1) = sgn b> Wj Ti 9 


7 二 1 
zj(t+1)= 2;(t), I #1 


直到 网 络 状 态 向 量 不 再 改变 稳定 为 止 . 此 时 的 网 络 状态 向 量 即 是 输入 样本 的 最 佳 匹 
配 模式 . 

下 面 讨论 具有 7 个 神经 元 的 DHNN 的 记忆 容量 问题 . 

所 谓 记忆 容量 , 是 指 给 定 网 络 节点 数 n, 网 络 记忆 的 模式 类 别 m 的 最 大 值 . 影 
响 记 忆 容 量 的 因素 有 : 

(a) 网 络 节点 数 nn. 

(b) 网 络 记忆 的 模式 向 量 的 性 质 . 正 交 的 模式 向 量 情 形 下 有 最 大 的 记忆 容量 . 

(c) 连接 权 的 设计 . 适当 的 连接 权 设 计 可 以 提高 记忆 容量 . 

(qd) 吸引 子 吸 引 域 的 大 小 . 要 求 吸引 域 越 大 , 记忆 容量 越 小 . 

记忆 容量 的 严格 分 析 是 相当 困难 的 , Hopfield 给 出 了 一 个 估计 , 即 


m < 0.15n. (5.4.14) 
按照 样本 为 随机 分 布 的 假设 所 作 的 理论 分 析 表 明 , 当 n 一 ce 时 , 记忆 容量 为 
m < 20)n (5.4.15) 


21nn 
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其 中 , a 为 要 求 的 吸引 域 的 半径 . 一 个 网 络 记忆 的 模式 向 量 z* 的 吸引 域 可 以 看 作 
以 该 向 量 为 中 心 的 球体 , 落 在 该 球体 内 的 向 量 z* 满足 
du (2*, 2°) = +》 (1 一 zhxz3) 和 am (5.4.16) 
二 1 
其 中 , dp (zw*, ws:) 是 w* 与 z* 间 的 汉 明 距离 , 它 表 示 向 量 zk 与 x 间 不 相等 的 分 
量 的 个 数 . 任何 满足 式 (5.4.16) 的 特征 问 量 zs? 输入 DHNN, 最 终 将 收敛 于 吸引 子 
k 


TL.， 
5.4.2 ”连续 Hopfield 网 络 


连续 型 Hopfield 神经 网 络 (CHNN) 是 J.J. Hopfield 于 1984 年 在 DHNN 的 基 
础 上 提出 来 的 85. 它 的 基本 原理 与 DHNN 相似 . 由 于 CHNN 以 模拟 量 作为 网 络 的 
输入 输出 量 , 各 神经 元 采用 并 行 方式 工作 , 所 以 在 信息 处 理 的 并 行 性 、 联 想 性 、 实 
时 性 、 存 储 分 布 性 和 协同 性 方面 比 DHNN 更 接近 于 生物 神经 网 络 . 

图 5.12 是 Hopfield 动态 神经 元 模型 . 图 中 电阻 Rio 和 电容 C; 并 联 , 模拟 生物 
神经 元 的 延 时 特性 . 电阻 Rij(j = 1,2,…,n) 模拟 生物 神经 元 之 间 的 突 触 特性 . 运 
算 放大 器 模拟 生物 神经 元 的 非 线 性 特性 , 其 输入 w: 和 输出 vi 按 S 型 函数 变化 , 即 


vi = f (ui). (5.4.17) 


图 5.12 Hopfield 动态 神经 元 模型 


其 中 , f 为 Sigmoid 函数 或 双 曲 线 正切 函数 . 为 独立 的 外 输入 信号 . . 
图 5.13 是 CHNN 的 结构 图 . 对 于 每 一 个 神经 元 而 言 , 自身 的 输出 信号 经 过 其 
他 神经 元 又 反馈 到 自己 , 所 以 CHNN 是 一 个 连续 的 非 线 性 动力 学 系统 . 各 放大 器 输 
出 的 反馈 权 值 wj 反映 神经 元 之 间 的 突 触 特性 , 但 其 中 不 直接 反馈 回 自身 , 即 自 反 
馈 权 值 为 0: wi; = 0. 这 一 点 与 DHNN 相同 . 
对 于 第 i 个 神经 元 , 放大 器 的 输入 输出 关系 可 用 下 式 描 述 


， | 
Cd 一 一 一 一 十 2, RY 一 Wi) 十 1 (5.4.18) 
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它 可 改写 为 
(5.4.19) 


其 中 


(5.4.20) 


图 5.13 CHNN 结构 图 


由 于 f 为 连续 函数 , 网 络 中 的 所 有 节点 的 状态 随 着 时 间 并 行 地 更 新 ， 在 一 定 范围 内 
由 n 个 神经 元 构成 的 CHNN, 各 放大 器 的 输入 输出 关系 可 用 下 述 方程 描述 


UU=—T iu+Wv+0 (5.4.21) 
其 中 
T 
CO— [ui wm] 
v= [ui va Vn] = (ww) 


T = diag (7, 72,. Tn] = [v1, va， on] 
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0 = [01,02,...,0n]™ 
W = [os 


与 DHNN 一 样 , 网 络 的 稳定 性 分 析 基于 网 络 的 能 量 函 数 ，CHNN 的 能 量 函 数 定义 


为 
B= -9D www - 3 + 三 万 (5.4.23) 


i=1 7 一 1 


式 中 第 三 项 表示 一 种 输入 状态 和 输出 值 关 系 的 能 量 项 . 如 果 CHNN 中 运算 放大 器 
为 理想 或 近似 理想 放大 器 , 则 上 式 中 第 三 项 的 能 量 项 可 忽略 不 计 , 此 时 能 量 函 数 可 


表示 为 
B- -ooom- Du : (5.4.24) 


“一 工 7=1 


关于 式 (5.4.19) 所 描述 的 CHNN 网 络 的 稳定 性 有 以 下 定理 (证 明 从 略 ): 若 广 :(o) 
为 单调 递增 的 连续 函数 , 并 有 ci > 0,wi = wis, 则 网 络 状态 的 变化 有 


(5.4.22) 


dt a (5.4.25) 


该 定理 表示 CHNN 后 六 的 的 太朗 化 向 能 量 本数 家 小 的 方向 运动 并 最 终 收 敛 于 网 
络 的 互 的 极 小 值 点 , 即 网 络 的 稳定 平衡 点 . 

关于 CHNN 有 如 下 结论 : 

(1) 具有 良好 的 收敛 性 , 即 从 任意 非 平衡 状态 出 发 , 网 络 将 收敛 于 某 个 平衡 态 . 

(2) 具有 有 限 个 平衡 点 . 

(3) 如 果 平 衡 点 是 稳定 的 , 它 一 定 是 渐 近 稳定 的 . 

(4) 渐 近 稳定 的 平衡 点 是 其 能 量 函 数 的 局 部 极 小 点 . 

(5) 网 络 的 信息 存储 表现 为 神经 元 之 间 互 连 的 分 布 式 动态 存储 . 

(6) 网 络 以 非 线 性 、 连 续 时间 并 行 方式 处 理 信息 , 其 计算 时 间 即 网 络 趋 于 平衡 
点 的 时 间 . 


5.4.3 ”Hopfield 网 络 在 优化 计算 中 的 应 用 


用 神经 网 络 求解 最 优化 问题 是 神经 网 络 应 用 的 一 个 重要 方面 . 用 (连续 ) Hop- 
field 网 络 求解 最 优化 问题 的 过 程 可 以 归纳 如 下 : 

(1) 选择 一 种 适当 的 表示 方法 , 使 得 网 络 的 状态 与 待 解 问题 的 变量 值 对 应 起 来 . 

(2) 把 最 优化 问题 的 目标 函数 转化 为 网 络 的 能 量 函 数 , 使 其 极 小 值 对 应 于 问题 
的 最 佳 解 . 

(3) 由 能 量 函 数 导出 网 络 的 结构 , 即 根据 式 (5.4.24) 求 出 W 和 0. 
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(4) 按 网 络 的 工作 方式 运行 网 络 , 即 按 式 (5.4.19) 改变 网 络 的 状态 , 多 次 迭代 后 
网 络 的 能 量 函 数 收敛 于 极 小 值 , 此 时 网 络 的 稳定 状态 就 是 待 求 的 变量 值 . 

由 于 神经 网 络 是 并 行 计算 , 其 计算 时 间 不 随 维 数 的 增加 发 生 指 数 性 质 的 “ 爆 
炸 ”, 因而 对 于 最 优化 问题 的 高 速 计 算 特别 有 效 . 例如 , 1985 年 Hopfield 等 利用 900 
个 神经 元 构成 的 网 络 , 仅 用 0.2s 就 求 得 了 一 个 30 个 城市 的 旅行 商 问 题 (TSP) 的 最 
优 解 . 用 其 他 方法 很 难 做 到 这 一 点 . 下 面 以 求 TSP 为 例 , 说 明 Hopfield 网 络 求解 
最 优化 问题 的 方法 . 

“旅行 商 最 优 路 径 问 题 (TSP)”, 是 指 有 nn 个 城市 ec = {c1,c2,… ,cn}; 城市 ci cy 
间 的 距离 用 dii = d;; 表示 . 要 求 寻找 一 条 经 过 每 个 城市 仅 一 次 的 路 程 最 短 且 回 到 
出 发 地 的 路 径 . 对 于 TSP 问题 , 若 采 用 传统 的 穷 举 法 , 需要 找 出 全 部 可 能 的 路 径 
( 当 n > 3 共有 ml/2n 条 ), 计算 并 比较 它们 的 长 度 , 再 确定 最 佳 路 径 . 这 种 方法 随 着 
城市 数 n 的 增加 , 计算 量 急 剧 增加 . 用 传统 的 串 行 计 算 难 以 短 时 间 内 得 到 结果 . 当 
用 Hopfield 网 络 求解 ， 由 于 神经 网 络 一 定 程度 上 模拟 了 人 脑 的 “思考 ”功能 , 以 及 
并 行 计算 的 特点 , 避免 了 传统 方法 计算 量 的 指数 爆炸 . 

为 简明 起 见 , 假定 m=5. 首先 把 问题 转化 为 适合 于 神经 网 络 处 理 的 形式 . 我 们 
用 所 谓 的 换 位 矩阵 (permutation matrix) V = [wj 来 表示 旅行 路 径 , 例如 表 5.1 
所 示 的 矩阵 V 的 值 表 示 了 n=5 的 TSP 问题 的 一 条 有 效 路 径 . 矩阵 Y 中 , 行 表示 
城市 , 列表 示 路 径 次 序 . v; = 1 的 元 素 表示 它 对 应 的 城市 i ( 行 ) 在 路 径 中 以 次 序 7 
( 列 ) 出 现 ; wii; = 0 的 元 素 表示 不 出 现 . 如 果 把 矩阵 V 的 每 个 元 素 对 应 于 神经 网 络 
的 每 个 神经 元 , 则 该 问题 可 用 n? = 25 神经 元 构成 的 Hopfield 网 络 求解 . 


表 5.1 n==5 的 TSP 问题 的 一 条 有 效 路 径 
城市 次 序 1 3 


cl 
C2 
c3 


Ca 


加 DD -OO OO 
DD DO DO OO P|IL 
™ 器 OD DO DO 
号 DO OO PP OI 
它 于 DD DO CIa 


C5 


问题 求解 的 第 二 步 是 把 问题 的 目标 函数 转化 为 网 络 的 能 量 函 数 , 并 将 问题 的 求 
解 变量 与 网 络 的 状态 对 应 起 来 . 解决 这 个 问题 往往 是 求解 过 程 中 最 关键 、 最 困难 的 
部 分 , 需要 一 定 的 技巧 . 根据 问题 的 要 求 , 一 条 有 效 的 路 径 需 满足 以 下 约束 条 件 ; 

(a) 一 个 城市 只 能 访问 一 次 , 这 等 价 于 矩阵 Y 每 行 中 只 有 一 个 1 

(b) 一 次 只 能 访问 一 个 城市 , 这 等 价 于 矩阵 Y 每 列 中 只 有 一 个 1. 

(o) 总 共有 n 个 城市, 这 等 价 于 和 矩阵 V 所 有 元 素 之 和 为 7 
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(d) 要 求 路 径 最 短 , 这 等 价 于 网 络 能 量 函 数 的 最 小 值 对 应 于 TSP 问题 的 最 短 
路 径 . 

现在 讨论 网 络 能 量 函 数 的 构成 . 

(1) 对 应 于 约束 条 件 (a), 考虑 到 矩阵 Y 的 任意 一 行 的 任意 两 个 相 邻 元 素 的 乘积 
等 于 0， 所 以 矩阵 V 的 mn 行 的 所 有 元 素 按 顺 序 两 两 相 乘 之 和 也 为 0， 即 


n nl n 


2,> >》， UziVzri; 一 0. 将 它 乘 以 系数 A/2, 4 > UriVry 作为 能 量 函 数 


2 一 1 t=1 ;=it+1 fT 二 1 1 一 1 一 ?让 1 


的 第 一 项 
中 nl nn 
(2) 对 应 于 约束 条 件 (b), 可 得 能 量 函 数 的 第 二 项 5、 DD worww 


?一 z=1 y=Zz++1 


(3) 对 应 于 约束 条 件 (c), 矩阵 V 的 所 有 元 素 之 和 等 于 n, 可 得 能 量 函 数 的 第 三 
2 
页 |》 > vzi 一 " 取 平 方 值 是 为 了 符合 能 晤 函数 的 表达 形式 . 


T=1 z=1 


(4) 对 应 于 约束 条 件 (d), 设 任 意 两 城市 x, y 间 的 距离 为 ds, 访问 这 2 个 城 
市 有 两 种 途径 : 之 一 2 和 yo 相应 的 距离 为 dzyUziVyitl 和 dzyVriVy,i1. 由 前 
三 个 约束 条 件 可 知 两 项 中 至 少 有 一 项 为 0. 顺序 访问 两 城市 z, y 的 所 有 可 能 途径 


的 长 度 为 2 dontw i+1 十 Vy,i-1). 同样 由 前 三 个 约束 条 件 可 知 , 这 n 个 求 和 项 中 ， 


最 多 只 \ 能 有 -项 (dzyvzivyiitl 或 dzyvzivy,i-1) 不 为 0. 如 果 nn 个 求 和 项 均 为 0, 则 
该 路 径 不 是 按 相 邻 顺 序 访问 这 两 个 城市 的 . 
个 城市 两 两 之 间 所 有 可 能 的 访问 路 径 的 长 度 可 表示 为 


D3 Sa, yUzi(Vy, 证 1 十 yi 一 1)- 


z=1 y=1 i=1 


其 中 数值 最 小 的 那 条 路 径 就 是 TSP 问题 的 最 短路 径 , 由 此 得 到 能 量 函数 的 第 四 项 : 
二 >》， >》 >》 dryUzi (Vyit1t+ Uy,s—1). 


z=1 y=1 i=1 
以 上 所 述 的 前 三 项 仅 当 问题 的 约束 条 件 得 到 满足 时 才 为 0, 从 而 保证 了 所 得 路 
径 的 有 效 性 . 当 问 题 的 约束 条 件 得 不 到 满足 , 网 络 的 能 量 函 数 不 可 能 达到 极 小 , 因 
此 它们 称 为 乱 罚 项 . 第 四 项 对 应 于 问题 的 目标 函数 , 其 最 小 值 即 为 最 短路 径 长 度 . 由 
此 得 到 网 络 能 量 函 数 的 表达 式 : 


nh nl n nn nl n nn nn 2 
3 2 ) > >》 UyiUzj 十 py -S33 >》 VriVyi 十 3 | 


4 一 工 7 一 ?1 2=1 z=1 y=2+1 
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125) > 3 dzyVzi(Vy,it1+ vy,i1). (5.4.26) 


z=1 y=1 i=1 
上 式 符合 网 络 能 量 函 数 的 定义 . 当 互 达到 极 小 时 , 由 网 络 状态 vi; 构成 的 换 位 矩阵 
表达 了 TSP 问题 的 最 短路 径 . 
问题 求解 的 第 三 步 是 确定 网 络 神经 元 间 的 连接 权 和 神经 元 的 阐 值 . 设 网 络 神经 
元 (Zi) 与 (y,j) 间 的 连接 权 为 woiyj, 神经 元 (zi) 的 闹 值 为 大， 则 有 


Weiys = —Adzy(l — 6i7) — Bbis(1 — by) — COC — Ddyy(0ji41 + 67i_1) 

Ti = Cn 

5 | Lb (= 

【ogo, (i 

实际 上 , 将 上 式 代 入 Hopfield 能 量 函数 表达 式 (5.4.24), 则 得 TSP 问题 的 能 量 函 数 
表达 式 (5.4.26)( 只 差 一 常数 项 n2). 

问题 求解 的 第 四 步 是 将 网 络 神经 元 间 司 的 连接 权 和 神经 元 的 阔 值 代入 网 络 的 运 
行 方 程式 (5.4.19), 得 到 求解 TSP 问题 的 迭代 方程 如 下 ; 


ct 一 一 页 一 2 BC C2 一 


z= 二 1 y=1 


(5.4.27) 


一 已 ao, itl1 十 Uy,i 1) 


y=1 


vzi = fri(uzi) = 3 : 十 tanh 的 ] . (5.4.29) 


0 
其 中 , f 是 双 曲 线 正 切 函数 ; uo 是 初 值 . 
根据 该 运行 方程 , 网 络 的 具体 计算 步 又 如 下 ; 
(1) 初始 化 : 给 定 初 值 wo (如 0.02). 为 保证 收敛 于 正确 解 , 按 下 式 给 定 网 络 各 
神经 元 的 初始 状态 : 


1 
Uri 一 了 0 lIn(n 一 1) 十 Guss 


这 里 56,, 为 (~-1,-+1) 区 间 内 的 随机 数 . 
(2) 按 式 (5.4.29) 求 得 各 神经 元 的 输出 


vzi(to) = | + tanh (2 wo) | . 


(3) 按 式 (5.4.28) 求 得 et 


t+ 一 to 
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(4) 求 下 一 时 刻 网 络 的 状态 


duzs 
dt |， 


(5) 返回 步骤 (2), 反复 进行 运算 , 直到 网 络 状态 稳定 不 变 . 这 时 网 络 的 状态 对 
应 的 换 位 矩阵 V 的 值 即 为 问题 的 解 . 


Uzilt + At) = wri(t) + At. 


5.5 随机 神经 网 络 


5.5.1 随机 神经 网 络 的 基本 思想 


神经 网 络 中 , 常用 某 个 目标 函数 的 全 局 极 小 作为 算法 搜索 和 网 络 状态 变化 的 依 
据 , 如 前 面 讨论 的 BP 网 络 的 误差 函数 和 Hopfield 网 络 中 的 能 量 函 数 都 属于 这 种 情 
况 . 网 络 的 学 习 或 运行 过 程 中 其 误差 函数 或 能 量 函 数 按 梯度 下 降 的 方向 演化 当 梯 
度 趋 于 0, 网 络 的 学 习 或 运行 过 程 就 停止 了 . 这 种 算法 往往 陷入 局 部 极 小 点 而 达 不 
到 全 局 极 小 点 , 被 形象 地 称 为 “贪心 * 算法 (greedy algorithm), 即 急 于 找到 最 小 解 ， 
结果 是 欲 速 则 不 达 . 分 析 以 上 两 种 网 络 的 结构 和 算法 特点 , 导致 网 络 陷入 局 部 极 小 
的 原因 主要 有 两 点 : (1) 网 络 结构 存在 输入 与 输出 之 间 的 非 线性 关系 , 使 网 络 误差 
或 能 量 函数 所 构成 的 空间 是 一 个 包含 多 个 极 小 的 非 线 性 空间 . (2) 算法 上 ， 网 络 误 
差 或 能 量 函 数 按 梯 度 下 降 的 方向 演化 而 不 能 有 丝毫 的 上 升 趋势 由 于 第 一 点 为 保 
证 网 络 具有 非 线 性 映射 能 力 所 必须 , 所 以 解决 网 络 收敛 于 全 局 极 小 的 问题 只 能 从 第 
二 反 着 手 , 即 “ 网 络 误差 或 能 景 函数 按 梯 度 下 降 的 方向 演化 ” 修改 为 “大 多 数 时 间 
按 梯度 下 降 的 方向 演化 ; 某 些 情况 下 容许 按 梯度 上 升 的 方向 演化 "， 则 网 络 就 有 可 
能 跳出 局 部 极 小 而 向 全 局 极 小 点 收敛 . 这 就 是 随机 神经 网 络 的 基本 思想 . 图 5.14 是 
随机 算法 与 贪心 算法 的 形象 表示 . 


E 


(a) 
图 5.14 随机 算法 与 贪心 算法 的 比较 
(a) 随机 算法 ; (b) 贪心 算法 
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5.5.2 ”模拟 退火 算法 

模拟 退火 算法 (Simulated Annealing Algorithm, 以 下 简写 为 SA 算法 ) 的 基 
本 思想 最 早 是 由 Metropolis 于 1953 年 针对 模拟 统计 物理 中 液体 结晶 问题 而 提出 
的 一 种 算法 思想 Bd， 当 时 是 用 于 模拟 物体 在 给 定 温度 下 的 热平衡 过 程 ， 1983 年 
Kirkpatrick 等 人 把 它 扩 展 到 温度 变化 的 情况 , 并 用 来 求解 组 合 优化 问题 . SA 算法 
将 组 合 优化 问题 与 统计 物理 中 的 热平衡 类 比 , 开辟 了 求解 组 合 优化 问题 的 新 途径 . 

SA 算法 用 于 求解 组 合 优化 问题 是 基于 固体 物质 的 退火 过 程 与 组 合 优化 问题 求 
解 过 程 的 类 似 性 . 固体 物质 的 退火 处 理 过 程 是 : 先 用 高 温 将 它 加 热 熔化 ,使 其 中 的 
粒子 可 以 自由 运动 . 然后 逐渐 降低 温度 , 粒子 的 自由 运动 趋势 逐渐 减弱 ,并 逐渐 形 
成 低能 态 晶 格 . 若 在 凝结 点 附近 温度 下 降 的 速度 足够 慢 , 则 固体 物质 一 定 会 形成 最 
低能 量 的 基态 , 即 最 稳定 的 结构 状态 . 实际 上 在 整个 降温 过 程 中 , 各 个 粒子 都 可 能 
经 历 了 由 高 能 态 向 低能 态 , 有 时 又 暂时 由 低能 态 向 高 能 态 , 但 最 终 趋 向 于 最 低能 基 
态 的 变化 过 程 . 由 此 可 以 得 到 这 样 一 种 启发 : 可 以 把 神经 网 络 的 状态 看 作 固体 内 部 
的 “粒子 ", 把 网 络 在 各 个 状态 下 的 能 量 函 数 看 作 粒 子 所 处 的 能 态 . 在 网 络 的 算法 中 
设置 一 个 控制 参数 工 , 当 较 大 时 , 网 络 能 量 由 低 变 高 的 可 能 性 也 较 大 ; 随 着 工 的 
减 小 , 这 种 可 能 性 也 减 小 . 如 果 把 这 个 参数 看 作 温度 , 使 其 由 高 向 低 慢 慢 下 降 , 则 整 
个 网 络 状 态 的 变化 过 程 就 完全 模拟 了 固体 的 退火 过 程 . 当 T 下 降 到 一 定 程度 , 网 
络 将 收敛 于 能 量 函数 的 最 小 值 . 可 以 看 到 , 网 络 能 量 由 低 变 高 的 可 能 性 是 “网 络 温 
度 ” 了 的 函数 , 用 数学 模型 来 表示 即 网 络 能 量 由 低 变 高 的 概率 是 T 的 函数 . 

由 此 , SA 算法 可 描述 如 下 . 对 于 由 n 个 神经 元 组 成 的 反馈 网 络 , 网 络 的 状态 用 
向 量 ze = (z1, 22,…, zn)7 表示 , 各 分 量 是 n 个 神经 元 的 输出 , 且 z; 仅 取 1 和 0 两 
个 值 . 这 种 情况 下 , 网 络 可 能 有 的 状态 数 为 KK = 2", 即 的 取 值 为 = 1,2,..…,KK. 
0 = (01,02,… ,0n)” 为 网 络 的 闪 值 向 量 . W = [W], 、, 为 网 络 的 连接 权 和 矩阵 , 其 元 
素 wi; 表示 神经 元 i 和 ; 之 间 的 连接 权 . 权 和 矩阵 为 对 称 矩 阵 , 即 有 wij = ws. 且 对 
角 元 素 为 0, 即 wi; = 0. 神经 元 i 的 综合 输入 ( 即 内 部 状态 ) 为 


n 


Wi 一 >》 Wij 一 0 (5.5.1) 


了 一 1 天 4 
神经 元 i 的 输出 x; 取 值 1 和 0 的 概率 分 别 为 m(1) 和 m(0), 它们 可 表示 为 
pi(1) = 一 (5.5.2) 
@—ui/T 
式 中 , 了 是 网 络 温度 . 因此 在 SA 算法 中 , 神经 元 的 输出 是 由 wi 为 变量 的 概率 p;(1) 
和 zi(0) 决定 的 . 图 5.15 所 示 为 p;(1) 的 函数 曲线 . 
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由 式 (5.4.9) 知 Hopfield 网 络 能 量 函 数 的 变化 为 


Ai 一 一 [zi(t 十 1) 一 zi(t)] ui(t). 


图 5.15 pi(1) 函数 曲线 


在 SA 算法 中 , 当 神 经 元 i 按 式 (5.5.2) 的 概率 , 在 下 一 时 刻 的 输出 值 取 1 时 , 其 能 
量变 化 为 
ABF: = ~ [zi(t + 1) — zi(t)] vilt). (5.5.4) 


由 上 式 可 以 看 到 当 wi(t) > 0 时 , A 应 < 0, 表示 能 量 函 数 随 状态 的 变化 是 单调 减 小 
的 ; 而 当 wi(t) < 0 时 ,AE; > 0, 表示 能 量 函 数 将 增加 或 不 变化 . 这 在 Hopfield 网 
络 算法 中 是 不 容许 的 , 而 在 SA 算法 中 却 容许 以 比较 小 的 概率 (图 5.15 横 轴 负 值 对 
应 的 概率 ) 接受 这 种 变化 . 这 在 有 些 情况 下 有 利于 跳出 局 部 极 值 . 从 图 5.15 还 可 以 
看 出 , 当 温 度 了 较 高 时 , p;(1) 相对 于 wi 的 变化 反应 迟钝 ,曲线 趋 于 平坦 . 特别 当 
T 一 co 时 , 曲线 变 为 一 条 便 为 0.5 的 直线 , 此 时 mr 取 值 1 和 0 的 概率 相等 . 这 表 
示 当 了 值 高 时 , 网 络 各 神经 元 有 更 多 的 机 会 进行 状态 选择 , 相当 于 固体 内 部 的 粒子 
做 激烈 的 自由 运动 . 当 温 度 降低 时 ,pi(1) 曲线 变 陡 , p;(1) 相对 于 wi 的 变化 相当 敏 
感 . 特别 当 一 0 时 , 曲线 退化 为 阶 跃 函数 ,SA 算法 过 渡 到 离散 Hopfield 网 络 算 
法 . 所 以 可 以 说 , 离散 Hopfield 网 络 算法 是 SA 算法 开 一 0 时 的 特例 . 

当 网 络 按 式 (5.5.1)~(5.5.3) 反复 进行 状态 更 新 , 且 更 新 次 数 足够 多 以 后 , 可 以 
发 现 具有 能 量 E* 的 网 络 状态 ez 一 (Zz1, ZT2,… ,zn)7 的 出 现 概率 服从 Boltzmann 
分 布 : 

P (E*) _ ee 


K 
2 = Y eB"/T (5.5.5) 


网 络 状态 2* = (x1,z2,… ,zn)T 能 量 Er 的 表 式 为 
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E* 一 _1 > 3 Wij TiTj 十 yo (5.5.6) 
“全 j=1,j¥t i=1 

2 是 归 一 化 常数 , 等 于 网 络 所 有 KK 种 状态 的 能 量 和 . 由 这 一 分 布 可 以 看 到 , 状态 的 

能 量 E* 越 小 , 该 状态 出 现 的 概率 越 大 , 这 是 Boltzmann 分 布 的 一 大 特点 , 即 能 量 

最 小 的 态 以 最 大 的 概率 出 现 . 这 就 保证 了 SA 算法 收敛 于 网 络 的 全 局 极 小 . 


5.5.3 ”Boltzmann 机 及 其 工作 规则 


1985 年 Hinton 等 人 把 SA 算法 引入 神经 网 络 中 B71, 提出 了 Boltzmann 机 模型 ， 
简称 BM 网 络 (Boltzmann machine). BM 网 络 结构 与 离散 Hopfield 网 络 DHNN 基 
本 相似 , 其 共同 点 为 : 

(1) 每 个 神经 元 取 二 值 输出 (如 1 和 0). 

(2) 神经 元 间 的 连接 权 和 矩阵 是 对 称 的 , 对 角 元 等 于 0 ( 即 无 自 反馈 ). 

(3) 每 次 只 调整 一 个 神经 元 的 状态 , 该 神经 元 的 抽样 是 随机 的 . 

不 同 点 是 : 
” (1) BM 网 络 允 许 有 隐 含 层 (但 没有 明显 的 层次 结构 ), DHNN 则 不 允许 . 

(2) BM 网 络 神经 元 采用 随机 激活 机 制 , DHNN 神经 元 的 激活 是 确定 性 的 . 

(3) BM 网 络 可 以 以 某 种 随机 模式 进行 有 监督 的 学 习 , DHNN 在 无 监督 状态 下 
运行 . 

BM 网 络 有 图 5.16 所 示 的 两 种 结构 . 结构 (a) 由 可 视 层 和 隐 含 层 两 部 分 组 成 
主要 用 于 随机 性 自 联想 记忆 . 可 视 层 为 网 络 与 外 界 环境 提供 一 个 界面 . 网 络 进行 训 
练 时 , 可 视 层 神经 元 由 外 输入 向 量 钳制 于 特定 的 状态 , 而 隐 含 层 神经 元 则 运行 在 自 
由 状态 . 隐 舍 层 神经 元 用 于 检测 外 输入 的 统计 特征 . 这 种 网 络 可 以 通过 无 监督 学 习 
来 模拟 外 界 给 定 的 概率 分 布 . 


5.16 ”BM 网 络 的 两 种 结构 
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结构 (b) 中 的 可 视 层 进一步 分 为 输入 和 输出 两 部 分 , 它 主要 用 于 随机 性 互联 想 
记忆 . 这 种 网 络 采 用 如 下 的 有 教师 监督 的 学 习 方 式 : 把 某 个 记忆 模式 加 到 网 络 的 输 
入 部 分 , 同时 , 网 络 的 输出 部 分 按 一 定 的 概率 分 布 给 出 一 组 期 望 输出 模式 . 此 时 所 
给 出 的 概率 分 布 实际 上 是 输出 模式 相当 于 输入 模式 的 条 件 概率 分 布 . 

BM 网 络 的 算法 根据 其 两 大 用 途 分 为 工作 规则 和 学 习 规 则 . 工作 规则 也 就 是 网 
络 的 状态 更 新 规则 , 主要 用 于 求解 优化 组 合 问题 . 学 习 规则 也 就 是 网 络 的 连接 权 和 
益 值 的 修正 规则 , 主要 用 于 模拟 外 界 的 概率 分 布 . 

这 里 首先 介绍 BM 网 络 的 工作 规则 . 

BM 网 络 的 工作 规则 与 DHNN 工作 规则 十 分 相似 , 只 是 以 概率 方式 取代 阶 跃 
函数 方式 对 神经 元 状态 进行 更 新 而 且 网 络 温度 随 着 网 络 状 态 的 不 断 更 新 而 逐渐 
降低 . 实际 上 , BM 网 络 的 工作 规则 就 是 模拟 退火 算法 的 具体 体现 .由 于 它 用 于 求 
解 优化 组 合 问 题 ， 因此 , 它 是 把 问题 的 原始 条 件 和 目标 函数 转化 为 网 络 的 能 量 函 数 ， 
按 BM 网 络 的 工作 规则 进行 网 络 状态 的 更 新 , 求 得 问题 的 最 优 解 . 在 这 种 情况 下 ， 
网 络 的 连接 权 和 阔 值 应 该 按 联想 记忆 方式 事先 设计 确定 . 

对 于 由 ”个 神经 元 组 成 的 BM 网 络 , 网 络 的 状态 用 向 量 z = (z1,z2,……, zn)T 
表示 , 各 分 量 是 n 个 神经 元 的 输出 . 网 络 可 能 有 的 状态 数 为 K= 2n. BM 网 络 工作 
规则 的 步骤 可 归纳 如 下 : 

(1) 给 定 网 络 阔 值 9 = (01, 9,,.…,9n)T, 连接 权 和 矩阵 W = Who 3 
度 元 一 T(t), 输入 网 络 初 态 z = (en 22, Tn) > Fi 的 ,za 人 的 Zn 人 |. 
t= 1. 

(2) 从 个 神经 元 中 随机 选择 一 个 神经 元 i, 计算 其 综合 输入 , 即 内 部 状态 

wlt)= 2, wizi(t)— 0 


j=1,7#1 
(3) 网 络 状态 更 新 : 神经 元 i 之 外 的 神经 元 状态 保持 不 变 
zj(t + 1) = x;(t), joj = 1,2,.. "0 


神经 元 i 的 状态 按 以 下 概率 进行 更 新 : 


1 


pi lzilt + 1) = 1 = Ty 


BB 当 wi(t) > 0 时 , zi(t + 1)=1:; 
当 wi(t) < 0 时 , zi(t +1) 的 值 可 有 两 种 方法 确定 . 
(a) | Ti 十 1) 二 Ti(t) 当 pi [zi(t 十 1) 二 1] <ro.s (ro.s 为 0 ~ 0.5 间 的 随机 数 ) 
ri(t+1)=1 其 他 
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四 | Zit 十 1) = zi(t) 当 pi [zi(t 十 1) = 1 < co5 (eo.5 为 0 ~ 0.5 间 的 常数 ) 
zi(t+1)=1 其 他 
(4) 从 个 神经 元 中 随机 另 选 一 个 神经 元 , 重复 步骤 (2)~(3), 直到 在 温度 T(t) 
下 网 络 达到 “热平衡 ” 状态, 即 所 有 神经 元 的 状态 不 再 变化 . 
(5) 降低 网 络 温度 


T(t+1)= (5.5.7) 


0 
lg(t+1) 
已 经 证 明 , 按 此 降温 方案 能 保证 网 络 收敛 于 全 局 极 小 值 , 但 它 的 缺点 是 收敛 速度 太 
慢 . 也 可 用 下 列 快速 降温 方案 : 


T(t 4 1) = 7 (5.5.8) 


(6) 迭代 计算 . 令 t+1 一 己 回 到 步骤 (2) 进行 计算 , 直到 温度 7 小 于 预先 给 定 
的 一 个 截止 值 Tst, 迭代 结束 . 这 时 , 网 络 的 能 量 函 数 五 


EF= -3 》， >》 Wij TiTj + So, Ti 
i=1 j=1,7#1 4 一 1 

达到 极 小 , 对 应 的 网 络 状态 z(Teut) = (x1 (Tout)， za(Tea …, zn (Tsut)) ”为 待 求解 
问题 的 最 优 解 . 

关于 初始 温度 和 结束 温度 , 目前 还 没有 成 熟 的 设 定 方法 , 一 般 赁 经 验 给 出 . 

由 于 BM 网 络 的 工作 规则 导致 的 网 络 的 状态 转移 , 使 得 无 论 从 什么 初始 状态 
出 发 , 都 收敛 到 网 络 能 量 函 数 的 最 小 值 , 能 量 函 数 的 各 个 局 部 极 小 值 无 法 被 利用 来 
作为 模式 记忆 的 存储 点 , 所 以 BM 网 络 以 工作 规则 运行 时 , 不 能 作为 多 记忆 模式 的 
联想 记忆 器 使 用 . 


5.5.4 Boltzmann 机 学 习 规 则 


网 络 的 学 习 规 则 是 指 网 络 连接 权 和 闭 值 的 修正 规则 . BM 网 络 的 学 习 规 则 主要 
通过 网 络 训练 模拟 外 界 的 概率 分 布 , 实现 概率 意义 上 的 联想 记忆 . 所 谓 概 率 意义 上 
的 联想 记忆 , 指 的 是 网 络 所 记忆 的 并 不 是 记忆 模式 本 身 , 而 是 记忆 模式 出 现 的 概率 . 
这 时 , 提供 给 网 络 进行 训练 的 也 不 仪 是 训练 样本 , 而 且 有 训练 样本 出 现 的 概率 . 

联想 记忆 可 分 为 自 联 想 记 忆 和 互联 想 记忆 两 类 . 自 联想 记忆 由 图 5.16(a) 所 示 
的 BM 网 络 实现 , 互联 想 记 忆 由 图 5.16(b) 所 示 的 BM 网 络 实现 . 

1， 自 联想 记忆 学 习 规 则 

假定 BM 网 络 有 N 个 神经 元 ,可 视 层 有 m 个 神经 元 , 隐 含 层 有 m 个 神经 
元 , N = nn 十 m. 可 视 层 有 p = 2” 种 状态 , 隐 含 层 g = 2™ 种 状态 , 整个 网 络 有 
K = 2 = pg 种 状态 . 可 视 层 状态 可 表示 为 za = (zx9,79,… ,7X2)T,a = 1,2,...,p; 
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隐 含 层 状态 可 表示 为 me = (29,29,…, 29.)T,b 二 1,2,…,g. 各 分 量 zx; 仅 取 1 和 0 
两 个 值 . 网 络 的 连接 权 和 矩阵 和 阔 值 向 量 为 W = [WJ]wy、vy 和 8 = (91,02,.…,0N)T. 

所 谓 的 自 联 想 记忆 , 是 指 给 网 络 的 可 视 层 提供 一 组 记忆 模式 z。= (zx9, x9,…， 
Z2)1,a 二 1,2,.…,p 及 其 中 每 一 个 记忆 模式 应 出 现 的 概率 ( 即 这 组 记忆 模式 的 概率 
分 布 函数 ), 让 网 络 按照 下 面 将 介绍 的 学 习 规 则 进行 学 习 . 学 习 结 束 后 得 到 相应 的 权 
矩阵 和 靖 值 向 量 值 . 此 后 网 络 从 任何 初始 状态 出 发 , 当 网 络 利用 学 习 过 程 得 到 的 权 
和 矩阵 和 阔 值 向 量 按 5.5.3 小 节 介绍 的 工作 规则 进行 不 断 的 状态 更 新 , 网 络 可 视 层 的 
各 种 状态 将 按 学 习 过 程 中 给 定 的 记忆 模式 的 概率 分 布 出 现 , 即 概率 大 的 状态 出 现 的 
频率 高 , 概率 小 的 状态 出 现 的 频率 低 . 这 样 , 网 络 相当 于 一 个 按 既 定 概率 分 布 输出 
的 “概率 发 生 器 ”, 这 就 是 概率 意义 上 的 自 联想 记忆 . 可 以 看 到 , 自 联想 记忆 的 实质 
是 网 络 通 过 学 习 目 标 概率 分 布 , 将 其 记忆 并 在 以 后 的 回想 过 程 中 将 这 一 概率 分 布 再 
现 出 来 . 应 当 注 意 的 是 , 可 视 层 神经 元 的 个 数 可 根据 记忆 模式 的 种 类 确定 , 而 隐 含 
层 神经 元 的 个 数目 前 需 赁 借 经 验 确定 . 

BM 网 络 怎样 记忆 目标 分 布 函数 呢 ? 前 面 已 经 指出 ，BM 网 络 按 工作 规则 进 
行 网 络 状态 更 新 , 当 更 新 次 数 足 够 多 , 网络 状态 出 现 的 概率 服从 Boltzmann 分 布 . 
Boltzmann 分 布 函数 是 由 网 络 状态 的 能 量 函 数 决定 的 ,而 能 量 函 数 又 是 由 网 络 的 
连接 权 和 阔 值 所 决定 .因此 , 通过 连接 权 和 各 阅 值 的 适当 调整 ， 就 可 实现 所 期 望 的 
Boltzmann 概率 分 布 . 连接 权 和 赣 值 的 调整 过 程 也 就 是 网 络 的 学 习 过 程 . 

根据 式 (5.5.5) 给 出 的 Boltzmann 概率 分 布 , 网 络 的 状态 概率 分 布 函数 QUz。z) 
为 


Q(Ta, Tp) 三 Se Preems)/T 


了 一 seeeam (5.5.9) 
k=] 
k=1,2,...,K, K=27 
式 中 , EB (za, zs) 为 网 络 在 状态 时 (可 视 层 和 隐 含 层 状态 分 别 用 me。 = (zx9, 2z9,…， 
7%)” 和 ze = (29, 芭 3,…, x4,)T 表示 ) 的 能 量 函数 
1 N N N 
Er. (Pa, vs) 一 一 >》， >》 way TH Th 十 >》 OTe (5.5.10) 
%=1 


z 一 1 7=1,7¥¢ 
这 时 , 可 视 层 实际 输出 状态 的 概率 分 布 Q(z。) 为 
q 
Q(za) = Q(zare), a=1,2,...,p (5.5.11) 
b=1 


令 记 忆 模 式 zu = (z9,x9,…,z2)T,a = 1,2,.…,p 的 目标 概率 分 布 为 P(zoa), Za 及 
P(x。) 是 事先 给 定 的 已 知 值 . 为 表示 目标 概率 分 布 P(z。) 与 实际 概率 分 布 Q(x。) 
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的 偏差 , 引用 统计 学 中 的 Kuliback 偏差 G (也 称 交 又 粹 ) 的 定义 


G{(twij) 一 >》 P(xo) ‘In De 。 (5.5.12) 


交叉 灶 具 有 性 质 G(wi;) > 0, 且 仅 当 P(zo) = Q(zo) 时 G(wij) = 0. 显然 , G(wij) 
越 小 , 实际 输出 状态 的 概率 分 布 Q(z。) 就 越 接 近 于 目标 概率 分 布 P(xz。). 因此 网 络 
的 学 习 过 程 也 就 是 求 G(wij) 极 小 值 的 过 程 . 

对 应 于 23 的 微小 变化 Awij;,G (wi;) 的 变化 量 为 


G (wij 十 Avwi;) 一 G{(wij) 十 Aws ot). (5.5.13) 
Ua 
如 果 设 pc ) 
0) 
: Atws E Bue e>0. (5.5.14) 
则 必 有 
G (Way 十 Awij) 式 G (wi;). (5.5.15) 


式 (5.5.15) 说 明 , 如 果 按 式 (5.5.14) 调整 连接 权 , 则 网 络 的 交叉 米 G(rwi;) 星 单调 下 
降 趋 势 . 随 着 连接 权 调 整 的 反复 进行 , G(wi;) 将 收敛 于 极 小 值 , 即 可 实现 目标 概率 
分 布 P(zo). 
式 (5.5.14) 中 G(wij) 对 wij 的 偏 微分 可 表 为 
OG (wi) 


1 1 Pp(+) __ p(-) 
一 (PP — PO). (5.5.16) 


其 中 


a 


p 
Pi = P(r): 二 一 (5.5.17) 
二 1 — Erl(Ta To)/T 


[Ms 


e 


cr 
| 


1 


(—) 1 所 — En (za;ZBb)AG 
Pi 一 也 Dinie “5b)/T, (5.5.18) 
P41) 表示 网 络 可 视 层 各 神经 元 输出 固定 于 目标 概率 分 布 P(xo), 而 隐 含 层 各 神经 
元 按 Boltzmann 机 工作 规则 进行 状态 更 新 足够 多 次 达到 平衡 状态 后 , 神经 元 i 和 ; 
同时 输出 为 1 的 概率 , 它 也 称 为 ri 与 zj 之 间 的 对 称 概率 . P; ,表示 网 络 所 有 神经 
元 按 Boltzmann 机 工作 规则 进行 状态 更 新 足够 多 次 达到 平衡 状态 后 , 神经 元 i 和 ; 
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同时 输出 为 1 的 概率 . 把 式 (5.5.17)~(5.5.18) 代入 式 (5.5.16) 即 得 网 络 连接 权 的 修 
正 值 


E 一 。 。 。 
Awij 二 韦 (PS —P; )) ， I=1,2,.,N;i zj. (5.5.19) 


该 式 表 示 了 BM 网 络 的 自 联想 记忆 的 学 习 方 法 . 式 中 第 一 项 表示 连接 权 的 调整 量 
Awij 与 PA+) 成 比例 增加 , 而 P+ 是 神经 元 i 与 j 之 间 的 对 称 概率 , 即 zi 与 zj 同 
时 为 1 的 数量 越 多 , PS 越 大 ; 反之 亦 然 . 这 类 似 于 Hebb 学 习 原 理 : 两 个 神经 元 
同时 兴奋 , 则 它们 之 间 的 连接 权 得 以 增强 . 式 中 第 二 项 表示 连接 权 的 调整 量 Aw;; 
与 P07) 成 比例 减 小 , 这 与 Hebb 学 习 原理 正好 相反 , 因此 这 一 项 称 为 反 学 习 项 . 故 
而 , BM 网 络 通过 可 视 层 与 “外 界 环境 ”接触 时 进行 Hebb 学 习 ; 当 与 “外 界 环境 ” 
隔绝 时 进行 反 学 习 . 

按照 上 述 讨论 , BM 网 络 自 联 想 记 忆 学 习 规 则 的 步骤 可 归结 如 下 . 

(1) 设 定常 数 和 初 值 

N, mn( 网 络 神经 元 数 和 可 视 层 神经 元 数 ) 

To, 全 (初始 和 结束 温度 )， 

<( 学 习 率 ) 

M,Z (COM > 2" 循环 次 数 和 状态 更 新 次 数 ) ; 

记忆 模式 ze = (zz Ta 二 1,2,…,p;p 二 2” 及 其 目标 概率 分 布 
Pl(za) ; 

wi; 赋予 [一 1, 十 1] 区 间 内 的 随机 值 , 并 满足 wa = wji, wii = 0,1i,7 = 1,2,.…,N, 
即 无 自 反 馈 对 称 网 络 ， 闪 值 设 为 0: 0 = 0 . 

(2) 按 给 定 的 目标 概率 分 布 P(z。) 随机 地 选取 一 个 模式 状态 ro, 将 网 络 可 视 
层 各 神经 元 的 输出 固定 在 该 模式 状态 zx。 = (zi x2,:…, zn)T. 

(3) 从 温度 Ti 开始 , 按 网 络 工作 规则 (模拟 退火 算法 ) 对 隐 含 层 各 神经 元 的 输 
出 进行 状态 更 新 , 直至 达到 75 温度 下 的 平衡 态 x = (zx1, 22,:… ,Tm) m=N—n. 

(4) 在 Ts 温度 下 , 进行 工 次 网 络 全 部 神经 元 的 状态 更 新 , 每 次 更 新 后 , 累计 计 
算 神 经 元 i 与 ; 的 输出 xz; 与 zj 同时 为 1(i,7 = 1,2,…,N) 的 次 数 7 (Hebb 学 
习 ). 

(5) 重新 从 温度 Tb 开始 , 按 网 络 工作 规则 (模拟 退火 算法 ) 对 网 络 全 部 神经 元 的 
输出 进行 状态 更 新 , 直至 达到 Ts 温度 下 的 平衡 态 x = (zl ,Zn Zai ZnHm)T. 

(6) 在 Te 温度 下 , 进行 L 次 网 络 全 部 神经 元 的 状态 更 新 , 每 次 更 新 后 , 累计 计 
算 神经 元 i 与 j 的 输出 zi 与 zj 同时 为 1(i,j = 1 2,……,N) 的 次 数 nt7) ( 反 学 习 ). 

(7) 返回 步骤 (2), 对 步骤 (2)~(6) 作 M 次 循环 . 
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(8) 计算 概率 PG 和 PS 


PY) %7 
ly ， 57=1,2,,N 
(—) _ 
Fi; LL. 
(9) 修正 网 络 的 连接 权 


Wij 十 Aij 一 Wi 
E 一 ，， 
Awsj = 未 (PS PS ))， i,j = 1,2,...,N;i@j. 


(10) 返回 步骤 (2), 进行 多 次 循环 , 直到 对 所 有 的 i,j, 连接 权 的 变化 Ai (了 = 
1,2,.…,N) 很 小 为 止 , 学 习 过 程 结 束 . 所 得 到 的 连接 权 w;; 即 为 学 习 过 程 的 成 果 . 

学 习 结 束 后 , 从 任何 初始 状态 出 发 , 利用 所 得 的 连接 权 wi; 按 工作 规则 进行 多 
次 网 络 状态 的 转移 , 达到 平衡 态 时 , 网 络 可 视 层 各 个 状态 的 出 现 概率 将 与 网 络 学 习 
时 给 定 的 期 望 概率 分 布 一 致 . 

2. 互联 想 记忆 学 习 规 则 

假定 BM 网 络 有 NN 个 神经 元 , 其 中 可 视 层 的 输入 部 分 有 ni 个 神经 元 , 可 视 层 
的 输出 部 分 有 no 个 神经 元 , 隐 含 层 有 m 个 神经 元 , N = ni 十 no 十 m. 可 视 层 输入 
部 分 有 p; = 2m 种 状态 , 输出 部 分 有 po = 2” 种 状态 , 隐 舍 层 g = 2™ 种 状态 , 整个 
网 络 有 天 = 2V = pi : po。. gq 种 状态 . 各 部 分 状态 可 表示 为 : 

可 视 层 输入 部 分 状态 可 表示 为 za = (z9，z8，… ,22)1,a = 1,2,.…,pi; 

输出 部 分 状态 可 表示 为 ye = (yf,y5,… ,9V) ,c== 1,2,.… ,po; 

隐 含 层 状态 可 表示 为 zo = (到 22) 一 1 2 9. 

各 分 量 xz; 仅 取 1 和 0 两 个 值 . 网 络 的 连接 权 和 矩阵 和 阔 值 同 量 为 W = [W]yww 和 
0 = (01,02,...,0N)T. 

所 谓 的 互联 想 记忆 , 是 指 给 网 络 的 可 视 层 的 输入 部 分 提供 一 组 记忆 模式 ze = 
(z9,79,.… ,220)T,a 二 1,2,.…,pi, 同时 给 可 视 层 的 输出 部 分 按 给 定 的 期 望 概率 分 布 
给 出 一 组 期 望 输出 模式 , 此 概率 分 布 实际 上 是 输出 模式 相对 于 输入 模式 的 条 件 概率 
分 布 . 用 P(xzo,ye) = P(xzo)P(ye|za) 表示 期 望 的 联合 概率 分 布 , 其 中 P(yc|za) 为 
在 输入 模式 为 x。 的 条 件 下 出 现 输出 模式 ye,c = 1,2,.… ,po 的 期 望 条 件 概率 分 布 . 
让 网 络 按照 下 面 将 介绍 的 学 习 规则 进行 学 习 . 学 习 结 束 后 得 到 相应 的 权 和 矩阵 和 阐 值 
向 量 值 . 学 习 结 束 后 的 网 络 在 进行 回想 时 ， 当 给 网 络 提供 一 输入 模式 z。 后 , 对 网 
络 除 输 入 部 分 以 外 的 神经 元 利用 学 习 过 程 得 到 的 权 和 矩阵 和 阔 值 向 量 按 5.5.3 小 节 介 
绍 的 工作 规则 进行 不 断 的 状态 更 新 ， 网 络 可 视 层 的 输出 部 分 的 各 种 状态 将 按 学 习 
过 程 中 给 定 的 记忆 模式 的 条 件 概 率 分 布 出 现 , 这 就 是 概率 意义 上 的 互联 想 记忆 . 因 
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此 , 互联 想 记 忆 的 实质 是 网 络 通过 学 习 目 标 概率 分 布 , 将 其 记忆 并 在 以 后 的 回想 过 
程 中 将 这 一 概率 分 布 再 现 出 来 . 应 当 注 意 的 是 , 可 视 层 神经 元 的 个 数 可 根据 记忆 模 
式 的 种 类 确定 , 而 隐 含 层 神经 元 的 个 数目 前 需 凭借 经 验 确 定 . 

按照 上 述 讨论 , BM 网 络 互联 想 记 忆 学 习 规 则 的 步骤 可 归结 如 下 . 

(1) 设 定 常数 和 初 值 

NN, ni no (网 络 神经 元 数 , 可 视 层 输入 部 分 和 输出 部 分 神经 元 数 ) 

7b,7E,e( 初 始 和 结束 温度 , 学 习 率 ) 

也 M1, M2( 状 态 更 新 次 数 ， M1 > 2no M > 2™, 循环 次 数 ) ; 

wi 赋予 [-1, +1] 区 间 内 的 随机 值 , 并 满足 wy = wiiy Wii = 0,%,7 = 1,2,...,N, 
即 无 目 反馈 对 称 网 络 , 六 值 设 为 0: 9; = 0 . 

(2) p = 2m 个 记忆 模式 中 随机 地 选取 一 个 输入 模式 w。 = (z1,z2,.…, zw 并 加 
到 可 视 层 的 输入 部 分 : 

(3) 按期 望 的 目标 条 件 概率 分 布 P(y。|zw。) 随机 地 选取 网 络 可 视 层 的 输出 模式 
yc, 将 可 视 层 输出 部 分 神经 元 的 输出 固定 在 该 输出 模式 状态 y。 = (y1, Ya , Yno)™. 

(4) 从 温度 20 开始 , 按 网 络 工作 规则 (模拟 退火 算法 ) 对 隐 含 层 各 神经 元 的 输 
出 进行 状态 更 新 , 直至 达到 74 温度 下 的 平衡 态 z= (zi z2,… ,Tm) Tm = Ai 一 
Ni 一 No. 

(5) 在 Te 温度 下 , 进行 L 次 网 络 全 部 神经 元 的 状态 更 新 , 每 次 更 新 后 累计 计 
算 神 经 元 ; 与 ; 的 输出 zx; 与 Zz; 同时 为 1(i, 7 = 1,2,…,N) 的 次 数 nm 人) (Hebb 学 
习 ). 

(6) 重新 从 温度 元 开始 , 按 网 络 工作 规则 (模拟 退火 算法 ) 对 网 络 中 除 可 视 层 
输入 部 分 以 外 的 全 部 神经 元 进行 状态 更 新 , 直至 达到 Ts 温度 下 的 平衡 态 . 

(7) 在 Te 温度 下 , 进行 L 次 网 络 全 部 神经 元 的 状态 更 新 , 每 次 更 新 后 ， 累计 计 
算 神 经 元 i 与 ; 的 输出 z; 与 xz; 同时 为 1(i,j 一 1 2 … ,TV) 的 次 数 mn 人 1 ( 反 学 习 ). 

(8) 返回 步骤 (3), 对 步骤 (3)~(7) 作 Mi 次 循环 . 

(9) 计算 概率 PG 和 P07) 


( 
(+) 
jy .MX 

OD) fi, N 
(—) 2 
3 LL.M 


(10) 修正 网 络 的 连接 权 


Wij + Avwi; 一 Wiy 
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PD 
(11) 返回 步骤 (2), 随机 选取 下 一 个 输入 模式 . 对 步骤 (2)~(10) 进行 Ma 次 循 
环 . 
(12) 返回 步骤 (2), 对 步骤 (2)~(11) 进行 多 次 循环 , 直到 连接 权 的 变化 Avwij,i， 
j 二 1,2,.…,N 很 小 为 止 , 学 习 过 程 结束 . 所 得 到 的 连接 权 wi; 即 为 学 习 过 程 的 成 
果 . 
学 习 结 束 后 , 从 任何 初始 状态 出 发 , 利用 所 得 的 连接 权 w;; 按 工作 规则 进行 多 
次 网 络 状态 的 转移 , 达到 平衡 态 时 , 网 络 可 视 层 各 个 状态 的 出 现 概 率 将 与 网 络 学 习 
时 给 定 的 期 望 概率 分 布 一 致 . 


5.5.5 ”随机 神经 网 络 小 结 


前 面 关于 模拟 退火 算法 及 Boltzmann 机 学 习 和 工作 规则 的 介绍 中 指出 , 这 一 
算法 可 使 网 络 的 能 量 函数 收敛 于 全 局 最 小 值 , 从 而 求 得 问题 的 最 优 解 . 但 实际 情况 
有 时 并 非 如 此 , 所 得 到 的 解 可 能 只 是 近似 的 最 优 解 , 其 原因 分 析 一 下 这 一 算法 的 收 
敛 过 程 就 可 以 得 到 答案 . 网 络 的 状态 随 着 更 新 过 程 的 不 断 进行 , 形成 一 个 状态 的 序 
列 : x2(0),z(1),… ,zw(k),…, 接连 的 两 个 状态 所 对 应 的 网 络 能 量 不 外 平 以 下 三 种 情 
况 : 

Elz(k+1)] > E[z(k)| 
El[z(k+1)]= Elz(k)]， 
Elz(k+1) < El[z(k)| 


其 中 前 两 种 情况 的 出 现 概率 比较 小 . 由 于 算法 的 这 一 特点 , 使 网 络 在 陷入 局 部 极 小 
时 有 机 会 跳出 来 ; 但 同时 网 络 当前 状态 对 应 的 能 量 有 可 能 比 前 一 状态 大 , 当 网 络 初 
始 温度 元 不 够 大 、 降 温 过 程 太 快 、 结 束 温度 TE 不 够 小 的 情况 下 , 这 种 可 能 性 更 
大 , 甚至 会 产生 当前 解 比 状态 更 新 过 程 中 的 最 好 解 差 得 多 的 现象 . 这 就 是 为 什么 有 
时 模拟 退火 法 的 结果 反 不 如 其 他 算法 好 的 原因 . 针对 这 种 缺点 , 提出 了 一 种 改进 算 
法 (improved annealing procedure, 简称 IAP 算法 ), 这 里 不 再 详 述 , 读者 可 参考 有 
关 文 献 [38]. 

尽管 模拟 退火 算法 存在 一 些 不 足 , 但 它 比 快速 下 降 的 “贪心 ”算法 得 到 最 优 解 
的 概率 高 的 多 , 且 这 一 算法 具有 很 强 的 通用 性 , 特别 是 对 复杂 性 较 高 、 规 模 较 大 、 
对 问题 的 有 关 知 识 了 解 较 少 的 情况 , 它 具 有 明显 的 优越 性 . 因为 它 不 像 其 他 算法 那 
样 , 需要 比较 多 地 依赖 问题 的 有 关 知 识 来 提高 算法 的 性 能 . 但 是 , 在 Boltzmann 学 
习 规则 中 , 包含 着 其 工作 规则 , 学 习 与 反 学 习 交 替 进 行 , 因此 , 网 络 计 算 量 大 , 特别 
是 当 网 络 温度 下 降 速 度 较 慢 时 , 网 络 收敛 过 程 十 分 缓慢 , 这 是 制约 这 种 网 络 算法 应 
用 的 主要 障碍 . 
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5.6 ”神经 网 络 用 于 粒子 鉴别 


5.6.1 用 于 带电 粒子 鉴别 的 特征 变量 


作为 神经 网 络 在 粒子 物理 实验 中 的 应 用 , 我 们 来 讨论 北京 谱 仪 II (BESIIT) 正 
负电 子 对 撞 实 验 B 中 的 粒子 鉴别 问题 9. 如 式 (1.2.1) 所 示 , 该 实验 中 探测 器 直接 
测量 的 粒子 只 有 有 限 的 几 种 , 即 7, et, bt, 十, Kt,p,5， 我 们 这 里 所 指 的 粒子 鉴别 ， 
特 指 带电 粒子 的 鉴别 , 不 包括 > 光子 的 鉴别 . 粒子 鉴别 的 目的 , 即 是 根据 探测 器 测 
量 到 的 一 根 带 电 径 迹 的 特征 参数 , 确定 该 径 迹 是 何 种 粒子 产生 的 . 

BESIII 谱 仪 许多 子 探测 器 都 分 成 桶 部 和 端 盖 两 部 分 . 为 简单 起 见 , 下 面 的 讨论 
限于 桶 部 的 子 探测 器 , 实验 用 于 带电 粒子 鉴别 的 特征 变量 如 下 . 

1. 径 迹 动量 和 飞行 方向 信息 

43 层 信和 号 丝 构成 的 漂移 室 测量 带电 粒子 的 飞行 轨迹 , 根据 带电 粒子 在 BESIII 
均匀 螺 线 管 1T 磁场 的 偏转 半径 值 R 可 确定 其 动量 p 和 飞行 方向 的 极 角 6: 


pt(GeV/c) = 3 x 10™3B(Tesla)R(em) 
p= pt/|sing| | 


我 们 用 径 迹 动量 p 和 横 动量 m 等 价 地 表示 其 动量 和 飞行 方向 . 径 迹 在 漂移 室 中 的 
有 效 丝 层 击 中 数 Nisyer 与 p 和 pt 一 起 作为 漂移 室 的 特征 变量 用 于 粒子 鉴别 . 漂移 
室 单 层 信号 丝 对 于 径 迹 位 置 的 测定 精度 在 垂直 于 正 负电 子 束 流 的 方向 为 130pm, 由 
此 使 得 动量 的 确定 亦 有 误差 , 当 动量 为 p =1GeV/c 时 , 其 相对 误差 为 mm/p = 0.5%. 

2. dB/dz 信息 

所 谓 dE/dz 是 指 带 电 粒 子 在 漂移 室 气 体 中 飞行 单位 长 度 后 的 电离 能 量 损失 . 
这 里 用 漂移 室 信 号 丝 的 截断 平均 脉冲 幅度 PH 来 表示 其 相对 值 , 它 与 dE/dzx 只 差 
一 个 固定 的 常数 因子 . 在 同样 的 动量 下 , 不 同 粒子 的 dB/dz 值 是 不 同 的 , 因此 它 可 
以 作为 鉴别 粒子 的 特征 量 . BESIII 漂移 室 的 带电 粒子 归 一 化 脉冲 幅度 的 动量 分 布 
如 图 5.17 所 示 , 其 中 每 种 粒子 的 分 布 均 为 有 一 定 宽度 的 带 状 , 其 宽度 反映 了 电离 能 
量 损失 的 统计 不 确定 性 和 探测 器 的 有 限 探测 能 力 , 称 为 dE/dz 分 辨 , 其 数值 约 为 
(6%~7%). 

3. 飞行 时 间 计 数 器 信息 

粒子 的 飞行 时 间 tror 表示 粒子 在 谱 仪 对 撞 中 心 产生 飞行 到 击 中 飞行 时 间 计 
数 器 (TOF) 的 时 间 间 隔 . TOF 测 到 的 粒子 速度 Brorc 和 质量 平方 m2.o6 可 由 下 
式 计 算 ; 
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归 一 化 脉冲 幅度 


p/(GeV/e) 
5.17 BESIII 漂移 室 的 带电 粒子 归 一 化 脉冲 幅度 的 动量 分 布 


Bror = 一 一 -， mior=p? /or -for 
ctTOF Pior 

式 中 , 工 是 飞行 距离 , 由 漂移 室 测 得 的 径 迹 击 中 点 拟 合 磁 场 作用 下 形成 的 螺旋 线 长 
度 求 得 . 图 5.18 给 出 了 BESIII 的 TOF 系统 对 不 同 粒子 的 ma 随 动量 的 分 布 . 
由 于 TOF 对 飞行 时 间 troF 的 测量 存在 误差 , 因此 对 同一 种 粒子 , 该 分 布 都 是 一 条 
带 , 带 的 宽度 表征 了 测量 精度 , 它 由 TOF 的 时 间 分 辨 (两 层 TOF 的 时 间 分 辨 测定 
值 为 cror < (87.9 土 3.9)ps) 决定 . 显然 , 对 于 不 同 的 粒子 , 其 m2.os 是 不 同 的 ， 
此 mior 可 作为 粒子 鉴别 的 特征 量 . 此 外 , 径 迹 击 中 TOF 系统 的 z 向 位 置 zror 
亦 作为 TOF 系统 提供 的 粒子 鉴别 特征 量 . 


4. CsI(T1l) 电磁 量 能 器 信息 
由 6272 块 CsI(Tl) 晶体 构成 的 电磁 量 能 器 (简写 为 EMC) 可 以 对 光子 和 带电 


1.2 


0 02 04 06 08 1 12 14 
p/(GeV/c) 


5.18 BESIII 的 TOF 系统 对 不 同 粒 子 的 m2.or 随 动量 的 分 布 
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粒子 在 其 中 的 沉积 能 量 进行 测量 . 不 同 的 带电 粒子 在 EMC 的 沉积 能 量 不 同 , 不 同 
的 带电 粒子 在 EMC 中 簇 射 形状 的 不 同 有 助 于 电子 与 强 子 (x, K,p) 的 鉴别 和 与 
强 子 的 鉴别 . 簇 射 的 形状 可 由 以 下 几 个 特征 量 来 表征 : 

Eseea: 带电 粒子 击 中 EMC, 沉积 能 量 最 大 的 那 块 中 心 晶体 中 的 沉积 能 量 . 

Esx3: 中 心 晶体 周围 3 x 3 块 晶 体 阵列 中 的 沉积 能 量 和 . 

Esx5: 中 心 晶体 周围 5 x 5 块 晶 体 阵列 中 的 沉积 能 有 量 和 . 

42: 能 量 沉 积 的 二 阶 中 心 矩 , 定义 为 


其 中 , E; 是 径 迹 在 第 i 块 晶 体 中 的 沉积 能 量 ; d; 是 该 晶体 与 所 有 晶体 沉积 能 量 的 重 
心 之 间 的 距离 . 图 5.19 是 BESIII 的 EMC 系统 对 粒子 e, ,x 鉴别 所 提供 的 信息 的 
图 示 . 
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(c) (d) 
图 5.19 BESIII 的 EMC 系统 对 粒子 e, hn 鉴别 提供 的 信息 
(a) 沉积 能 量 的 动量 分 布 ; (b) Eseoa /Eax3 的 分 布 ; (c) 3xs/Esxs 的 分 布 ; (d) 二 阶 矩 yz 的 分 布 


5 0.6 0.7 08 
/cm 
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5. bk 探测 器 信息 

由 9 层 阻 性 板 室 (简称 RPC) 以 及 8 层 斩 铁 构成 的 u 探测 器 处 于 BESIII 的 
最 外 层 , 每 层 阻 性 板 室 的 平均 探测 效率 95%, 空间 分 辨 ( 即 粒子 击 中 点 的 测量 不 确 
定性 ) 16.6mm. 

电子 的 能 量 几乎 全 部 被 量 能 器 吸收 , 不 能 到 达 | 探测 器 . 大 部 分 强 子 穿 过 量 能 
器 后 被 第 一 层 斩 铁 吸收 ; h 子 则 有 较 强 的 穿 透 力 而 被 u 探测 器 记录 下 来 . 强 子 中 
的 x 有 一 定 的 概率 能 到 达 jh 探测 器 , 但 它 的 贯穿 深度 Laos 比 子 小 . 一 般 子 
在 一 层 阻 性 板 室 的 读 出 条 上 只 有 一 个 击 中 , 而 x 如 果 在 ph 探测 器 中 发 生 强 子 簇 射 
则 在 一 层 中 可 有 多 次 击 中 . 用 mait 表示 9 层 阻 性 板 室 中 最 大 的 单 层 击 中 数 ， 因此 
Laep 和 nynit 被 用 作 鉴 别 粒子 的 特征 量 . 图 5.20 给 出 BESIII 的 探测 器 系统 对 粒 
子 bh,T 鉴别 提供 的 信息 . 


I 人 
贯穿 深度 IL (单位 10cm) 最 大 单 层 击 中 数 n 


图 5.20 BESIII 的 探测 器 系统 对 粒子 ,x 鉴别 提供 的 信息 


5.6.2 ”带电 粒子 鉴别 的 神经 网 络 的 架构 


为 了 鉴别 e,h,x, K,p 五 类 粒子 , 基于 物理 考虑 和 网 络 运行 的 有 效 性 , 粒子 鉴别 
被 分 成 三 个 部 分 : h 子 的 判 选 , 电子 的 判 选 以 及 强 子 之 间 的 鉴别 . BESIII 的 粒子 鉴 
别 采 用 了 一 种 新 的 网 络 架构 , 即 首先 将 各 子 探测 器 的 信息 单独 处 理 , 然后 再 耦合 在 
一 起 , 给 出 被 判别 粒子 的 种 类 . 其 优点 是 降低 了 网 络 的 规模 , 而 且 避 免 了 不 同 探测 
占 信 息 之 间 虚 假 关联 的 产生 .整个 网 络 分 为 初级 和 次 级 两 层 ( 见 图 5.21)， 初 级 网 
络 有 4 个 子 网 络 Nap/jas, NroF, Nemc, Numvuoc, 编号 1, 2, 3, 4 分 别处 理 4 个 子 探 
测 器 各 自 的 粒子 鉴别 信息 , 并 产生 相应 的 关于 粒子 种 类 的 输出 信息 OaE/dx; OTOF, 
OpMc, OMuc， 这 些 输出 作为 次 级 网 络 的 输入 ， 次 级 网 络 有 9 个 子 网 络 Ns, Na， 
Nae，Nam，Nate， Ndtm; Ndem, Natem， Nem, 编号 5, 6, 7, 8, 9, 10, 11, 12, 13, 它们 关 
于 粒子 种 类 的 输出 结果 表示 为 O04, Oat, Oae, Oam,， Odte, Oatm; Odem; Oatem; Oem. 
对 于 e@, bh, K,p 五 类 粒子 , 这 13 个 子 网 的 期 望 输出 值 分 别 为 1, 2, 3, 4 5. 但 是 由 
于 性 能 的 局 限 , 实际 输出 对 于 期 望 输出 存在 偏离 . 偏离 越 小 , 网 络 的 粒子 鉴别 性 能 
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越 好 . 12 个 子 网 都 是 包含 一 个 隐 含 层 的 前 馈 网 络 , 采用 误差 逆 传 播 算法 , 激活 函数 
采用 Sigmoid 函数 . 唯一 的 例外 是 5 号 子 网 , 它 是 没有 隐 含 层 的 单 层 网 络 . 13 个 子 
网 的 有 关 参 数 见 表 5.2. 


|_ptrk | 
| Ppt | 
opT 
good Hits| 
|__ ptrk 
a 
| totm2 | 
| zt | 
一 BEE - 
| enerpgy | 
2 5,6 
| _ eseed Otof Opardron 
enced |_Otof | | Orman | 
5 | pion | 
- em 
: a 
一 4 
QeptDp 13 Om | 
| zhit | 
图 5.21 BESIII 的 粒子 鉴别 网 络 的 架构 
表 5.2 BESIII 粒子 鉴别 神经 网 络 的 13 个 子 网 的 参数 
(名 称 带 有 波浪 下 划 线 的 子 网 被 最 终 用 于 粒子 鉴别 .) 
编号 子 网 名 称 训练 样本 输入 特 隐 含 层 神 
粒子 种 类 征 变量 经 元 数目 
1 Nagyas ,bh, T, K,p P; Pt, PH, Niayer 20 
2 i ©, 1, K, Pp DP, Pt， rn 了 or， ZTOF 8 
3 EMC e, LT Ppt, Eseed, E3x3, Bsx5, M2 10 
4 Nure ,TT bp, pt Ldep, Nhit 8 
5 Na 7, K,p Oag/ds 0 
6 > 此 7, K,p P,Pt; OQqg /dz, OTOF 8 
7 Nae e, ,Tt P, pt; OgqE /dr: OEMC 8 
8 Nam DT P,Ppt, Oaqg /dr OMUC 8 
9 ~ e, by Tt P,Pt, Oa /dr: OTOF, OEMG 10 
10 Natm ,Tt P, Ppt, Oag/dr; OTOF, OMUG 10 
11 Ndem H, Tt P pt Oag/dr, OTOF, OMUC 10 
12 Natem bt P, Ppt, OQqE /dz OTOF, OEMG, OMUGC 12 


13 em Te P, pt, OEMC;, OMUC 8 
?PMO 8 | 


进一步 , 子 网 络 8, 10~13 用 来 作为 子 的 判 选 , 子 网 络 7, 9 用 作 电 子 的 判 选 ， 
子 网 络 5, 6 用 作 强 子 之 间 的 鉴别 . 后 面 将 会 讲 到 , 经 过 测试 , 最 终 是 用 粒子 鉴别 性 
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能 最 优 的 子 网 络 13, 9, 6 实行 ph 子 、 电 子 的 判 选 和 强 子 之 间 的 鉴别 , 它们 的 输出 作 
为 整个 网 络 关 于 粒子 种 类 的 结果 Omu, Oelectron 和 Ohaaron. 这 些 输出 值 经 过 最 后 的 
判 选 被 确定 为 5 类 粒子 , 即 输出 值 在 (0.1~1.4) 之 间 判 为 电子 , 输出 值 在 (1.8~2.3) 
之 间 判 为 由 子 , (2.5~3.5) 之 间 判 为 x, (3.5~4.5) 之 间 判 为 K, >4.5 判 为 质子 . 

前 面 已 经 提 到 , 12 个 子 网 都 是 包含 一 个 隐 含 层 的 前 馈 网 络 , 隐 含 层 神经 元 个 数 
的 确定 要 考虑 诸多 因素 , 如 输入 输出 神经 元 的 个 数 , 训练 样本 的 大 小 , 学 习 所 要 通 
近 的 函数 复杂 程度 , 网 络 的 具体 架构 , 网 络 算法 等 等 . 采用 的 准则 是 在 不 降低 粒子 
鉴别 效果 的 前 提 下 利用 尽 可 能 少 的 隐 含 层 神经 元 数目 . 通过 实际 的 测试 , 采用 一 个 
“2n” 规则 , 即 隐 含 层 神经 元 数目 等 于 输入 层 神经 元 个 数 ( 即 输入 特征 变量 个 数 ) 的 
2 倍 . 除了 对 子 网 1 的 隐 含 层 神经 元 数目 作 了 专门 的 调整 , 其 他 子 网 隐 含 层 神经 元 
数目 都 符合 这 一 规则 . 


5.6.3 ”网 络 的 训练 和 粒子 鉴别 效果 


各 子 网 所 用 的 训练 样本 的 粒子 种 类 已 经 列 于 表 5.2, 它们 是 根据 各 子 探测 器 的 
鉴别 能 力 和 不 同 粒子 在 该 子 探测 器 中 容易 混淆 的 程度 而 决定 的 . 子 网 的 训练 样本 
是 每 种 粒子 样本 量 50000 (区 分 正 、 反 粒子 ), 在 (0.1~1.6)GeVyc 动量 区 间 和 cos0 
(一 0.83~0.83) 方向 区 间 内 随机 地 产生 均匀 分 布 的 单个 粒子 . 用 训练 样本 确定 了 13 
个 子 网 各 自 的 连接 权 和 阔 值 后 , 用 与 训练 样本 同样 数量 、 同 样 性 质 , 但 随机 数 种 子 
不 同 的 检测 样本 来 检测 网 络 的 性 能 . 

4 个 初级 子 网 的 性 能 见 图 5.22. 由 图 可 见 , 子 网 Namyraz 对 于 和 x 几乎 没有 
鉴别 能 力 , 对 于 e,ph/x,K,p 有 鉴别 能 力 , 但 其 鉴别 能 力 在 不 同 的 动量 处 有 所 不 同 . 
在 200MeV 附近 e,p/x 混淆 在 一 起 , 600MeV 附近 e, n/n,K 混淆 在 一 起 , 1200MeV 
附近 p/n, K,p 混淆 在 一 起 . 子 网 Nror 同样 对 于 h 和 r 几乎 没有 鉴别 能 力 , 但 对 
600MeV 以 下 euyr 的 鉴别 有 重要 贡献 , 同时 具有 很 强 的 e/uy/r, K,p 鉴别 能 力 , 特 
别 对 于 质子 , 其 输出 值 非常 接近 于 期 望 值 5. 子 网 Newc 对 于 400MeV 以 上 的 和 
x 具有 较 好 的 分 辨 能 力 . 对 于 300MeV 的 电子 , 其 输出 值 非常 接近 于 期 望 值 1, 可 
以 与 p 和 r 清晰 地 区 分 开 来 . 子 网 Nuc 对 于 500MeV 以 上 的 和 x 具有 较 好 
的 分 辨 能 力 . 其 下 界 500MeV 是 由 于 只 有 动量 高 于 此 值 的 子 才能 罕 透 上 子 探测 
器 前 面 的 物质 . 

对 于 次 级 子 网 的 检测 结果 表明 , 作为 子 判 选 的 子 网 络 8, 10~13 中 , 子 网 络 
13 即 Nom 性 能 最 优 . 判 选 电 子 的 子 网 络 7, 9 中 , 子 网 络 9 即 Nat。 性 能 较 好 . 用 作 
强 子 之 间 鉴 别 的 子 网 络 5, 6 中 则 选用 鉴别 能 力 强 的 6 号 子 网 Nat. 这 3 个 子 网 的 
鉴别 能 力 见 图 5.23. 我 们 注意 到 , 这 3 个 子 网 对 于 e, pT, K,p 五 种 粒子 的 输出 值 随 
着 动量 的 变化 比 4 个 初级 子 网 要 平稳 得 多 , 而 且 相 当 接 近 它 们 的 期 望 值 1, 2, 3, 4， 
5. 这 是 由 于 综合 了 各 子 网 的 粒子 鉴别 能 力 后 , 大 大 提高 了 整个 网 络 的 粒子 鉴别 的 
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正确 性 和 稳定 性 . 
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图 5.22 4 个 初级 子 网 的 粒子 鉴别 性 能 
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图 5.23 3 个 次 级 子 网 Nom，Nate,， Nat 的 粒子 鉴别 性 能 


最 后 次 级 网 络 的 输出 作为 整个 网 络 关 于 粒子 种 类 的 输出 值 , 用 5 类 粒子 的 检 
测 样 本 确定 了 粒子 种 类 的 判 据 为 : 输出 值 在 (0.1~1.4) 之 间 判 为 电子 , 输出 值 在 
(1.8~2.3) 之 间 判 为 子 , (2.5~3.5) 之 间 判 为 x, (3.5~4.5) 之 间 判 为 K, >4.5 判 为 质 
子 . 依照 这 样 的 判 据 , 网 络 对 于 e,h, x, K,p 五 种 粒子 的 判 选 效 率 和 误 判 率 如 图 5.24 
和 5.25 所 示 . 由 图 可 见 当 动量 高 于 800MeV, pn 子 的 判 选 效 率 约 90%, 来 自 zt 的 污 
染 率 约 5% 并 随 动 量 的 增加 而 减 小 , 来 自 K 的 污染 率 随 动量 的 增加 而 增 大 . 
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图 5.24 BESIII 粒子 鉴别 网 络 对 jh 和 e 的 判 选 效率 和 误 判 率 
(其 中 最 右边 的 图 中 , r 的 误 判 率 的 纵 坐 标 单位 由 图 右 的 数字 给 定 ). 
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对 于 电子 的 判 选 从 动量 200MeV 开始 效率 即 达 90%, 并 随 动量 的 增加 而 增 大 . 
在 动量 (0.25~1.5)GeV 范围 内 , 来 自 r 的 污染 率 小 于 1%. 对 于 强 子 的 鉴别 中 , 质子 
的 判 选 效率 在 整个 动量 范围 内 接近 100%, 来 自 x 和 K 的 污染 率 很 小 ;x 和 KK 在 
低 动量 端 (<0.9GeV) 有 相当 高 的 判 选 效率 , 相互 之 间 的 污染 率 比 较 低 ; 但 随 着 动 


量 的 增加 , 效率 逐渐 降低 而 相互 间 的 污染 率 增 大 . 
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5.25 BESIII 粒子 鉴别 网 络 对 强 子 的 判 选 效 率 和 误 判 率 
( 横 坐 标 为 粒子 动量 p/(GeV/c)) 


第 六 章 近 邻 法 


近邻 法 最 初 由 Cover 和 Hartitt43 于 1967 年 提出 . 由 于 诸多 研究 者 对 该 方法 
进行 了 深入 的 理论 研究 和 发 展 , 目前 已 成 为 模式 识别 非 参数 法 中 的 重要 方法 之 一 . 


6.1 最 近邻 法 


假定 有 e 个 模式 类 , 用 wi,…,w。 表示 ， 有 已 知 类 别 的 训练 样本 共 N 个 , 其 中 


是 简单 而 又 直观 的 : 对 于 任意 待 归 类 的 样本 z, 只 要 比较 = 与 N 个 训练 样本 之 间 
的 欧 氏 距离 , 判定 样本 z 与 离 它 上 距离 最 近 的 那个 训练 样本 同类 
我 们 规定 属于 ww 类 的 判别 函数 为 


gi(z) = min d(%, 2!), i = 1,2,...,N, (6.1.1) 


式 中 , zt 的 角 标 ! 表示 wi 类 ; i 表示 wi 类 Ni 个 训练 样本 中 的 第 i 个 样本 . g(x) 
表示 模式 类 wi 的 Ni 个 样本 中 最 靠近 样本 z 的 那个 样本 与 z 之 间 的 欧 氏 距离 . 于 
是 最 近邻 法 的 决策 规则 可 写 为 , 对 任意 样本 z 
大 gm(z) = mingt(z), 1 = 1,2,…,c, 则 决策 
了  E wm. (6.1.2) 
其 中 ， gm (2) 表示 gi(z), ! 一 1， 2, "tC 中 的 最 小 值 . 
判定 样本 z 与 离 它 距 离 最 近 的 那个 训练 样本 同类 , 显然 容易 导致 对 样本 z 类 
别 的 误 判 , 因此 , 必须 讨论 最 近邻 法 的 错误 率 问 题 . 设 N 个 样本 下 的 平均 错误 率 为 
en(e), 且 样 本 z 的 最 近邻 训练 样本 为 x'. 我 们 注意 到 , 当 对 不 同 的 包含 N 个 样本 
的 训练 样本 集 应 用 最 近邻 法 对 z 进行 分 类 时 , z 的 最 近邻 训练 样本 z' 是 不 同 的 ， 
所 以 条 件 错误 率 与 zx 和 z' 都 有 关 , 即 应 表示 为 sw(elz,z). 车 对 zw 和 z' 求 平均 ， 
则 得 到 NN 个 样本 下 的 平均 错误 率 sw(e): 
en(e) = 广 ENf(elz,z')plz'lz)dz'p(z)jdz (6.1.3) 


定义 最 近邻 法 的 渐 近 平均 错误 率 < 为 N 一 oo 时 en(e) 的 极限 , 记 为 


E 一 Aim enle) (6.1.4) 
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可 以 证 明 存 在 下 述 关 系 (证 明 从 略 ) 


EB Een (2 一 一 ien (6.1.5) 
其 中 , ep 为 贝 叶 斯 决策 下 的 平均 错误 率 . 由 式 (2.1.12) 知 
EB = 三 EB(ez)do = f eBp(elz)p(z)dz (6.1.6) 


式 中 , ep(elz) 为 样本 z 在 贝 叶 斯 决策 下 的 条 件 错误 概率 ; p(x) 为 随机 变量 = 的 边 
沿 概 率 . 对 于 c 类 问题 , p(z) 的 表 式 为 


p(z) = > _ p(wlwi)r(ws). (6.1.7) 
i=1 
式 中 ， Tri) 一 1 1;C 为 模式 类 wj,…… ;We 的 先 验 概率 ; p(xlwi) 为 ze wi 时 的 条 
件 概率 密度 . 式 (6.1.5) 给 出 了 最 近邻 法 的 渐 近 平均 错误 率 s 的 范围 . 图 6.1 显示 了 
-最 近邻 法 的 渐 近 平均 错误 率 s 的 上 、 下 界 与 贝 叶 斯 决策 下 的 平均 错误 率 sp 之 间 的 
关系 . se 可 为 0~ (c 一 1)/e 之 间 的 某 个 值 , 最 近邻 法 的 渐 近 平均 错误 率 < 落 在 图 
中 的 阴影 区 域 中 . 当 ep =0 和 ep = (ec 一 1)/ce 时 有 = ep; 其 他 情况 下 则 se > ep. 
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ec 一 1 EB 


Cc 


6.1 最 近邻 法 错误 率 < 的 上 下 界 与 贝 叶 斯 决策 错误 率 se 之 间 的 关系 


6.2 大 近邻 法 


k 近邻 法 是 最 近邻 法 的 一 种 推广 . 它 的 基本 思想 如 下 : 对 于 任意 待 归 类 的 样本 
z, 取 它 的 上 个 近邻 训练 样本 , 这 个 近邻 样本 中 哪 一 个 模式 类 的 样本 数量 最 多 , 就 
把 样本 z 判 为 哪 一 类 . 

具体 来 说 , 假定 有 < 个 模式 类 , 用 wi,.… ,w 表示 , 有 已 知 类 别 的 训练 样本 共 N 
个 , 其 中 属于 1 类 的 训练 样本 为 Ni 个 (1 = 1,2,…,c). 在 这 N 个 样本 中 , 找 出 待 妇 
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类 样本 z 的 & 个 近邻 样本 , 其 中 属于 wi,… ,we 类 的 样本 数 为 有 ,… ,kc 个 . 我 们 
定义 判别 函数 为 
gi(z) = ki, t= 1,2,..:,cC. (6.2.1) 


k- 近 邻 法 的 决策 规则 可 写 为 , 对 任意 样本 rz 
若 gm (2) = max hh, 1 = 1,2,…,c, 则 决策 


Z E Wm. (6.2.2) 


直观 地 可 以 判断 , 由 于 利用 了 未 知 样本 x 的 个 近邻 训练 样本 的 信息 来 判断 
z 的 类 别 , k 近邻 法 的 平均 错误 率 应 当 低 于 最 近邻 法 . 这 里 我 们 不 加 证 明 地 给 出 对 
于 两 类 问题 k 近邻 法 平均 错误 率 sk 的 上 、 下界 的 表达 式 . 对 于 两 类 问题 , 样本 zx 
在 贝 叶 斯 决策 下 的 条 件 错误 概率 为 


sB(elz) = min [ga(wlilz),g(wz|z)] (6.2.3) 


其 中 , q(wilz) 为 贝 叶 斯 后 验 概率 . 当 N _，co 时 近邻 法 的 渐 近 条 件 错误 率 eN 一 ~ 
(elz) 可 表示 为 


ep “(elw) < ux [ep(elz) (6.2.4) 


其 中 , wx [ep (elz2)] 为 大 于 sp (elz) 的 最 小 四 函数 . 这 时 , 两 类 问题 大 近邻 法 平均 
错误 率 ep 可 由 渐 近 条 件 错 误 率 sh 一 cofelz) 求 平均 得 到 : 


ek = Eleg (elz)] < E {wx [en(elz)]} < un {Eles(ele)]} = wr(eB) (6.2.5) 


其 中 , sa 为 贝 叶 斯 决策 下 的 平均 错误 率 [ 见 式 (6.1.6)]. 于 是 , 可 得 到 两 类 问题 近 
邻 法 平均 错误 率 ej 的 上 、 下界 为 


EB & Ek < UR(EB) & Up_1(EB) S&S Ui(EB) < 2e8 (1 — ep) (6.2.6) 


该 式 的 最 后 一 项 即 为 式 (6.1.5)c=2 的 情形 , 即 两 类 问题 的 最 近邻 法 错误 率 的 上 限 . 
由 于 se (elz) 随 着 上 的 增 大 单调 地 减 小 , 因此 式 (6.2.6) 中 最 小 止 函数 wx 也 随 
着 的 增 大 单调 地 减 小 . 图 6.2 给 出 两 类 情形 下 (c=2) k 近邻 法 错误 率 sk 的 上 下 
界 与 贝 叶 斯 决策 错误 率 se 之 间 的 关系 . k=1 的 曲线 对 应 于 图 6.1 的 最 近邻 法 错误 
率 的 上 下 界 . 当 & 增 大 时 , 上 界 逐 渐 逼 近 最 优 的 贝 叶 斯 决策 下 的 平均 错误 率 ep. 

由 上 述 分 析 可 知 , 在 近邻 法 中 , 我 们 希望 采用 较 大 的 值 以 减 小 错误 率 ; 另 
一 方面 义 要 求 & 个 近邻 样本 与 待 归 类 的 样本 xz 足够 靠近 , 以 利于 利用 这 些 样本 得 
到 样本 z 的 正确 分 类 (在 式 (6.2.6) 的 推导 过 程 中 利用 了 g(wilz) 全 qlwilz') 的 关 
系 ). 因此 , 在 实际 使 用 大 近邻 法 时 , 一 般 要 求 满足 上 << N 条 件 下 取 较 大 的 & 值 . 


- 138 . 第 六 章 近邻 法 


图 6.2 ”两 类 情形 下 (c=2) &k 近邻 法 错误 率 ek 的 上 下 界 与 贝 叶 斯 决策 错误 率 ep 的 关系 


通常 取 上 = VN 应 该 是 不 错 的 选择 . 
无 论 是 近邻 法 还 是 上 -近邻 法 , 其 基本 思想 和 算法 步 又 都 十 分 简单 , 而 且 按 照 式 
(6.1.5), 其 错误 率 为 


EB ECEB (2- i) 
考虑 到 一 般 情形 下 se 比较 小 , 可 将 括号 中 的 第 二 项 忽略 , 近似 地 有 
EB EC 2ep. 


这 就 是 常 说 的 近邻 法 错误 率 介 于 ep 和 2es 之 间 . 近邻 法 的 这 些 优良 性 质 使 它 成 为 
模式 分 类 的 重要 方法 之 一 . 

但 是 , 近邻 法 也 存在 以 下 不 足 : 

(1) 需 将 训练 样本 集 的 所 有 N 个 样本 存 入 计算 机 中 , 每 次 决策 都 要 计算 待 识别 
样本 zx 与 全 部 训练 样本 之 间 的 距离 并 进行 比较 . 当 很 大 时 , 存储 量 和 计算 量 
很 大 . ’ 

(2) 所 以 以 上 分 析 的 结果 都 是 渐 近 的 平均 结果 , 即 要 求 N 一 co, 这 在 实际 场合 
是 无 法 实现 的 , 实际 的 结果 与 之 存在 差别 . 

(3) 虽然 在 所 有 情况 下 对 未 知 样本 都 可 以 作出 决策 , 但 当 错 误 代价 很 大 时 , 会 
产生 较 大 的 风险 . 


6.3 ”剪辑 近邻 法 


如 所 周知 , 确定 分 类 器 错误 率 的 方法 之 一 是 经 验 估 计 , 即 利用 所 有 样本 的 类 别 
己 知 的 训练 集 来 估计 错误 分 类 的 经 验 频数 .假如 使 用 全 部 样本 同时 用 来 设计 分 类 
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器 , 又 用 来 估计 错误 率 , 将 由 于 样本 集 缺 乏 独 立 性 使 得 错误 率 的 估计 偏 于 乐观 . 如 
果 将 样本 集 分 为 两 个 独立 的 子 集 一 一 设计 集 和 测试 集 , 用 设计 集 设计 分 类 器 , 用 
测试 集 估计 错误 率 , 这 样 得 到 的 错误 率 应 该 是 较为 准确 的 . 上 述 的 估计 错误 率 的 基 
本 思想 引出 了 蚤 辑 近 邻 法 . 


6.3.1 ”两 分 剪辑 近邻 法 
设 训练 样本 集 N 个 样本 共 分 c 个 类 别 , 第 i(i = 1,2,…,c) 类 样本 数 为 N;. 用 
集合 
XN {XxX 全 ,XX . XM), (6.3.1) 
表示 这 NN 个 样本 , 其 中 每 一 类 表示 为 
XM = {27}, i=1,2,..,c;m=1,2,...,N:. (6.3.2) 


剪辑 近邻 法 的 基本 考虑 是 将 决策 过 程 分 为 两 步 . 第 一 步 , 对 训练 样本 集 N 个 样本 
进行 预 分 类 , 剪辑 掉 被 错 分 类 的 样本 , 余下 的 样本 构成 前 辑 样本 集 及 NB, 该 过 程 称 
为 剪辑 ; 第 二 步 利 用 剪辑 样本 集 XNB 和 近邻 规则 对 未 知 样本 z 进行 分 类 . 

在 两 分 剪辑 近邻 法 中 ， 训 练 样本 集 系 Y 被 分 为 两 个 独立 的 子 集 一 参考 集 
(相当 于 错误 率 估 计 中 的 设计 和 集 ) 久 NR 和 测试 集 戈 Y7.， 两 个 子 集中 的 样本 不 相 重 
和 登 , 即 N=NR+TN7 参考 集 XNR 用 以 完成 剪辑 和 设计 任务 , 而 测试 集 五 NT 则 完 
成 测试 任务 . 

与 近邻 法 相 比 , 剪辑 近邻 法 增加 了 样本 剪辑 这 一 步骤, 所 以 , 需要 讨论 如 何 进 
行 样本 的 剪辑 . 

1. 两 类 问题 的 最 近邻 法 剪辑 

令 参 考 集 NR 的 样本 用 


XNRE {yi, yo,..., YNE} (6.3.3) 

表示 . 测试 集 XNT 的 样本 用 
XNT= {rr2 0 TNT} = {2}, j=1,2,.…,NT (6.3.4) 
表示 ， 对 于 测试 集 入 NT 的 任 一 样本 xz;, 其 在 参考 集 天 NS 中 的 最 近邻 样本 用 
y (zj;) 表示 . 所 谓 剪 辑 , 就 是 当 测 试 集 了 NT 中 的 一 个 样本 zj 与 其 在 参考 集 XNR 


中 的 最 近邻 样本 y/ (zj;) 不 属于 同一 模式 类 时 , 将 它 从 XNT 中 剪辑 掉 ; 当 属 于 同 
一 模式 类 时 则 予以 保留 . 对 入 N7 中 所 有 样本 完成 剪辑 步骤 后 , 形成 剪辑 样本 集 


WNTE 


然后 , 对 未 知 样本 z 的 分 类 用 剪辑 样本 集 天 wzE2 和 最 近邻 原则 作 分 类 决策 . 
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可 以 证 明 , 剪辑 最 近邻 法 的 渐 近 条 件 错误 率 与 最 近邻 法 的 渐 近 条 件 错误 率 存在 
下 述 关系 


eB (elz) = 3 (6.3.5) 
由 上 式 可 知 , 剪辑 最 近邻 法 的 错误 率 总 是 小 于 等 于 最 近邻 法 的 错误 率 , 即 
eP(e) & eile). (6.3.6) 
特别 当 si(e) 很 小 时 , 例如 si(e) < 0.1, 可 推 知 
eB (e) ei(e)/2. (6.3.7) 


由 于 最 近邻 法 错误 率 sl(e) 的 上 界 为 2ea, 因此 剪辑 最 近邻 法 的 错误 率 接近 贝 叶 斯 
错误 率 , 即 
ef (e) en. (6.3.8) 


2. 两 类 问题 的 近邻 法 剪辑 
上 述 最 近邻 剪辑 法 不 难 推广 到 & 近邻 的 情况 . 简单 地 说 , 就 是 第 一 步 用 大 近邻 
法 进行 剪辑 , 第 二 步 用 剪辑 样本 集 XNTE 和 最 近邻 原则 作 分 类 决策 . 用 k 近邻 法 进 
行 前 辑 就 是 , 对 于 测试 集 NT 的 任 一 样本 zi, 其 在 参考 集 钱 NR 中 的 个 近邻 样 
本 用 {gy (ce (2)),… ,V(XT;)} 表示 , 如 果 样 本 zj 与 {4 (2;),y2(2j),…… ,VTi)} 
样本 中 最 多 数 的 类 别 不 一 致 , 则 样本 zi 从 测试 集 NT 中 被 剪辑 掉 . 
可 以 证 明 此 时 有 类 似 于 式 (6.3.5) 所 示 的 关系 
sl(e|zZ) 
2 {1 一 sk(elz)] 
由 于 一 般 说 来 近邻 法 的 渐 近 条 件 错误 率 小 于 最 近邻 法 的 渐 近 条 件 错误 率 , 比较 
式 (6.3.9) 与 式 (6.3.5) 可 得 


eb (elz) = (6.3.9) 


eB (elz) < ef (elz). (6.3.10) 
假定 N 一 ce 时 有 一 00, 且 k/N 一 0 ( 即 足够 大 ,但 &<<N), 则 有 
Jim sk(elz) = ep(elz). 
利用 
sl(elz) = 2sB(elz) [1 — eB(elz)] 
代入 式 (6.3.9) 得 


im ep (elr) = ep(elw). 
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两 边 取 期 望 值得 
eg (e) = EB. (6.3.11) 


上 式 表 明 , & 近邻 剪辑 法 当 上 一 co 时 其 错误 率 eBE(e) 收敛 于 最 优 错误 率 ep. 这 显 
然 比 最 近邻 前 辑 法 的 特性 为 好 . 

3， 多 类 问题 的 近邻 法 剪辑 

对 于 多 类 问题 , 前 辑 的 效果 将 变 得 更 好 . 对 于 c 类 问题 , 第 一 步 用 大 近邻 法 进 
行 剪辑 , 第 二 步 用 剪辑 样本 集 及 NTE 和 最 近邻 原则 作 分 类 决策 . 若 用 (wilzx) 表 
示 用 大 近邻 法 分 配 样本 z 为 wi 类 的 概率 , 可 以 证 明 , 此 时 的 错误 率 为 


及 (il 四 Ri(ojlm)RCor) 
ce 已 (elz) = eg(elz) — a (6.3.12) 
其 中 ,==1,2,…,c 一 1;7 =i 十 1,… ,Cc;l= 二 1,2,…,c, 并且 7 让 
当 c=2 时 , 由 于 上 式 中 有 (wiz) = 0, 式 (6.3.12) 简化 为 式 (6.3.9) 的 两 类 错 
误 率 . 在 其 他 情况 下 , 式 (6.3.12) 右边 第 二 项 大 于 0, 所 以 多 类 前 辑 近邻 法 错误 率 
eE (elz) 将 小 于 两 类 剪辑 近邻 法 错误 率 sg(elz). 
6.3.2 ”重复 剪辑 近邻 法 
如 果 训 练 样本 集 的 样本 数量 足够 多 , 可 以 重复 进行 前 辑 , 以 提高 近邻 规则 的 分 
类 性 能 . 可 以 证 明 , 对 于 两 类 问题 , 利用 剪辑 最 近邻 法 重复 进行 m 次 剪辑 后 再 进行 
分 类 , 当 m 一 co 时 ， 
,lim Emx1,1(e|z) 一 EB(elz). 
即 当 m 充分 大 时 , 其 错误 率 渐 近 地 收敛 于 最 优 错 误 率 ep. 
重复 前 辑 近邻 法 的 一 种 实际 算法 被 称 为 MULTIEDIT 算法 , 其 计算 步骤 如 下 : 
(1) 将 样本 集 和 N 随机 地 划分 为 s 个 子 集 (s > 3), 即 


XN = {X11, Xo,.…, 0X,}. 


(2) 对 于 所 有 的 i(i = 1,2,…, s), 将 %; 视 为 测试 集 , XX(;41)Moali) 视 为 参考 集 ， 
其 中 


(G+ 1)Mod(s) = (十 二 一 LE + "| s. 


利用 剪辑 最 近邻 法 对 测试 集 Xi 中 的 样本 进行 剪辑 . 剪辑 留 下 的 样本 , 构成 剪辑 样 
本 集 NE 

(3) 如 果 步 又 (2) 没有 甬 辑 掉 任 何 样本 , 即 和 NE 与 XN 相等 , 则 算法 终止 ; 否 
则 将 对 NE 视 为 “新 ”样本 和 集 XN, 转向 步骤 (1). 
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由 于 对 样本 集 进行 了 随机 划分 , 并 在 以 后 的 每 次 迭代 中 , 都 是 将 前 一 步 剪 辑 后 
的 样本 构成 新 的 样本 集 , 然后 再 对 其 重新 随机 划分 , 这 就 有 效 地 避免 了 划分 子 集 间 
的 相互 作用 , 从 而 保证 了 前 辑 的 独立 性 . 

6.3~6.5 是 利用 MULTIEDIT 算法 划分 两 类 样本 的 一 个 例子 . 图 中 十 字 又 
和 圆 阐 表示 两 类 的 样本 点 , 虚线 表示 贝 叶 斯 最 优 决策 面 , 实 线 为 重复 剪辑 近邻 法 确 
定 的 边界 , 它 是 分 段 线性 的 . 图 6.3 是 初始 样本 集 , 图 6.4 是 一 次 剪辑 后 的 剪辑 样本 
集 , 图 6.5 是 最 终结 果 . 由 图 可 知 , 剪辑 过 程 是 将 两 类 边界 附近 的 样本 去 除 . 重复 前 
辑 近 邻 法 最 终 确 定 的 边界 与 贝 叶 斯 最 优 决 策 面 十 分 接近 . 


图 6.4 ”MULTIEDIT 算法 划分 两 类 样本 : 一 次 前 辑 后 的 剪辑 样本 
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图 6.5 MULTIEDIT 算法 划分 两 类 样本 : 最 终结 果 


6.4 可 作 拒 绝 决策 的 近邻 法 


利用 近邻 法 进行 分 类 时 , 有 时 会 出 现 决策 风险 很 大 的 情况 . 为 了 减 小 出 现 决 策 
风险 很 大 的 情况 的 概率 , 可 引入 拒绝 决策 的 近邻 法 . 从 6.2 节 我 们 知道 , 在 近邻 
法 中 , 对 于 两 类 问题 , 对 于 任意 待 妇 类 的 样本 z, 它 的 个 近邻 训练 样本 中 有 大 于 
jin 二 0.5k 三 t 个 样本 属于 某 一 类 wi(i = 1 2), 则 决策 w € wi. 这 种 决策 的 拒绝 率 
定义 为 1 一 t. 可 以 想像 , 如 果 将 t 值 增 大 , 要 求 = 的 个 近邻 训练 样本 中 有 更 多 的 
属于 wi 的 样本 时 才 决 策 = < wi, 那么 该 决策 为 错误 的 风险 会 减 小 ， 这 就 是 拒绝 决 
策 的 近邻 法 的 基本 思想 . 


6.4.1 ”具有 拒绝 决策 的 近邻 法 
对 于 两 类 问题 , 具有 拒绝 决策 的 & 近邻 法 可 叙述 如 下 . 给 定 阔 值 t: 
kn=tk, tt>1/2, (6.4.1) 


对 于 任意 待 归 类 的 样本 xz, 它 的 个 近邻 样本 中 有 大 于 等 于 ktn 个 样本 属于 某 一 类 
wii 三 1 2)) 则 决策 w € wi ; 如 果 不 满 足以 上 条 件 , 则 拒绝 对 样本 z 作 归 类 决策 . 
z 的 大 个 近邻 样本 中 至 少 ka 个 来 自 w 的 渐 近 概率 为 


Ek . 
Plwil|z) = >, Ciq(wilw)iq(wa lp) i. (6.4.2) 
i—=kth 


Plwilw) 锅 是 = 决策 为 wi 的 概率 , 其 中 gq(wi|z) 是 给 定 z 的 后 验 概率 . 当 z 的 上 
个 近邻 样本 中 少 于 lan 个 属于 同一 类 别 时 拒绝 对 xz 作 归 类 决策 , 其 概率 为 
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Aib 一 工 
Polej= YY ciglolzjigslmt (6.4.3) 
“一 太一 Kitnh 十 工 
P(wolz) 就 是 x 的 渐 近 拒绝 率 , 它 实际 上 建立 了 一 个 新 的 类 别 一 一 拒绝 类 wo, 即 
z 的 不 个 近邻 样本 中 有 一 部 分 样本 既 不 归 类 为 wxi, 也 不 归 类 为 ws. 
由 于 决策 必然 为 w( = 0, 1,2) 之 一 , 故 有 


P(wolz) + Plwi|z) + Pl(w2|z)=1 (6.4.4) 
决策 错误 率 为 . 
elelz) = qlwilz)P(w2lz) 二 atwazlz)P(walz) (6.4.5) 
决策 拒绝 率 为 
R(elx) = Pl(wolx) = 1— Plwi|x) — Plws|z) (6.4.6) 


可 以 证 明 , 当 一 oo 时 , 上 述 渐 近 条 件 错误 率 和 拒绝 率 分 别 收敛 于 具有 拒绝 六 值 
1 一 上 的 贝 叶 斯 错误 率 和 拒绝 率 . 


6.4.2 ”具有 拒绝 决策 的 剪辑 近邻 法 


具有 拒绝 决策 的 近邻 法 很 容易 推广 到 有 剪辑 的 情况 . 对 于 两 类 问题 , 具有 拒绝 
决策 的 剪辑 近邻 法 可 叙述 如 下 . 

给 定 大 和 式 (6.4.1) 的 kt 值 , 给 定 所 有 样本 的 类 别 已 知 的 训练 样本 集 及 N. 用 
以 下 步骤 进行 剪辑 : 

(1) 对 于 瑟 > 中 的 每 一 个 样本 x;, 从 义 玉 中 找 出 其 个 近邻 样本 . 

(2) 者 zx; 的 & 个 近邻 样本 中 至 少 有 ks 个 属于 wj 类 , 则 类 别 标志 记 为 到 j 一 
j(i 二 1,2) 类 ; 者 不 满足 上 述 条 件 , 则 类 别 标志 记 为 E,, = 0. 

(3) 将 思 ,, 关 0 同时 EE 产 9; 的 样本 从 入 NN 中 剪辑 掉 , 这 里 6; 是 样本 x; 的 
己 知 类 别 标志 , 也 就 是 将 步骤 (1), (2) 中 错 分 的 样本 剪辑 掉 . 

(4) 将 瓦 ，= 0 的 样本 归 为 拒绝 类 wo. 这 样 原样 本 集 和 N 中 的 一 部 分 被 剪辑 
掉 , 一 部 分 建立 了 拒绝 类 wo, 从 而 构成 新 的 剪辑 样本 集 义 NR. 

(5) 利用 剪辑 样本 集 及 NR 和 最 近邻 法 对 未 知 样本 z 进行 分 类 决策 . 

用 eB(e) 和 R3(e) 分 别 表 示 前 辑 方法 的 错误 率 和 拒绝 率 , 它们 与 不 考虑 前 辑 
的 错误 率 和 拒绝 率 s(e) 和 R(e) 的 关系 如 图 6.6 所 示 , 即 剪辑 后 错误 率 减 小 而 拒绝 
率 增加 . 


6.4 可 作 拒绝 决 策 的 近邻 法 


图 6.6 ”剪辑 和 非 剪 辑 情 况 下 的 错误 率 和 拒绝 率 
(a) 错误 率 ; (b) 拒绝 率 
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本 章 将 讨论 前 面 未 曾 涉及 的 、 在 实验 数据 分 析 中 常见 的 一 些 非 线 性 分 类 方法 . 


7.1 概率 密度 估计 量 方法 


在 本 节 的 讨论 中 , 我 们 把 问题 局 限于 实验 数据 分 析 中 的 常见 情形 , 即 观测 数据 
仅 分 为 信号 和 本 底 的 两 类 问题. 


7.1.1 ”基本 思想 


设 样本 的 特征 向 量 为 x = (zi1,… ,zn)T. 如 果 对 于 信号 事例 样本 和 本 底 事 例 样 
本 , 其 概率 密度 ps(z) 和 ps(z) 均 为 已 知 , 则 可 以 利用 ps(z) 和 ps(z) 构造 判别 量 
来 判别 未 知 样本 的 类 别 . 

设 未 知 样本 i 的 特征 向 量 为 ri = (zx1(i),…, zxn(i))T， 概率 密度 估计 量 方法 
(probability density estimator approach, PDE) 认为 Ha, 该 样本 属于 信号 类 样本 的 
概率 可 用 下 式 表示 : 本 

So 

(+ 1 
该 式 的 含义 可 作 如 下 理解 : ps(zi) 表示 特征 向 量 取 值 z; 时 样本 属于 信号 事例 的 概 
率 , pp(zwi) 表示 特征 向 量 取 值 x; 时 样本 属于 本 底 事 例 的 概率 ; 因此 特征 向 量 取 值 
zi 的 总 概率 为 ps(z;) 十 pe (zi), 而 y(zi) 表示 特征 向 量 取 值 x; 时 样本 属于 信号 事例 
的 概率 相对 于 总 概率 的 比值 . 这 一 比值 也 称 为 似 然 比 估计 量 (likelihood estimator), 
可 作为 样本 i 的 类 别 的 判别 函数 . 对 于 信号 样本 z, 它 被 分 类 器 判 为 信号 事例 的 可 
能 性 应 当 大 大 高 于 被 判 为 本 底 事 例 的 可 能 性 , 即 ps(z) > ps (x), 故 其 yz) =1. 反 
之 , 对 于 本 底 样本 z, 它 被 分 类 器 判 为 信号 事例 的 可 能 性 应 当 大 大 低 于 被 判 为 本 底 
事例 的 可 能 性 , 即 ps(z) < pa(z), 故 其 y(z) = 0. 因而 , 设 定 一 个 阔 值 y(th), 决策 

规则 可 表示 为 
| y(zi) > y(th)， 样 本 i 判 为 信号 ; (7.1.2) 
y(zi) < y(th)， 样 本 i 判 为 本 底 . 


这 样 , 当 概 率 密度 ps(z) 和 pp(z) 均 为 已 知 时 , 样本 的 分 类 问题 就 得 到 了 解决 . 
实际 上 , 由 式 (2.1.8) 知 , 对 于 c = 2 类 问题 , 基于 最 小 错误 率 的 贝 叶 斯 决策 规 
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2 (zl) (wa) 

3 jah) > To 

plzlon rw) 

3 polo) < zo) 

车 将 p(zlwi) 和 p(xw|w2) 分 别 表示 为 pg(z) 和 ppB(z), 并 定义 a = r(wB)/r(ws), 则 
上 式 可 改写 为 


T 和 Wy, 


vy Ps(T) 
3 PDB(Z) 
Ps (z) 
PB(T) 


TI Ews, > 


(7.1.3) 


TT EWwB, 当 < 


经 过 简单 的 计算 可 知 , 当 取 | 


上 十 上 
时 , 式 (7.1.1), 式 (7.1.2) 与 式 (7.1.3) 等 价 . 可 见 2 类 问题 基于 最 小 错误 率 的 贝 叶 
斯 决策 式 (7.1.3) 是 式 (7.1.1), 式 (7.1.2) 的 特殊 情形 . 

实际 问题 中 , 概率 密度 ps(z) 和 pB(z) 通常 是 未 知 的 . 为 此 提出 了 直接 用 样本 
来 估计 总 体 分 布 的 方法 , 称 之 为 估计 分 布 的 非 参 数 法 . 
7.1.2 ”总 体 概 率 密度 的 非 参 数 估 计 

我 们 的 目的 是 利用 训练 样本 集 来 估计 样本 空间 任何 一 点 的 概率 密度 p(z), 这 
种 估计 用 P(xz) 表示 . 如 果 训 练 样本 集 来 自 某 一 类 别 (如 wi 类 , 1 = 1,2,…,c), 则 估 
计 结 果 为 类 条 件 概 率 密度 (zlw1)， 如 果 训 练 样本 集 来 自 c 个 类 别 , 又 分 不 清 哪个 
样本 来 自 哪 一 类 , 则 估计 结果 F(z) 为 混合 概率 密度 . 

随机 向 量 x 落 入 区 域 R 的 概率 P 可 表示 为 


p= 上 plzjdz (7.1.5) 


车 z1,z2,.…,ww 是 从 概率 密度 p(x) 的 总 体 分 布 中 独立 抽取 的 N 个 样本 , 则 
有 上 个 样本 落 入 区 域 R 的 概率 PP, 服从 二 项 分 布 , 即 


P. = CNP*(1 — P®) (7.1.6) 


k 的 期 望 值 为 NP,E/N 可 以 作为 PP 的 一 个 很 好 的 估计 , 也 就 是 总 体 概率 密度 p(z) 
在 区 域 R 上 的 好 的 估计 . 为 了 求 得 总 体 概率 密度 p(z) 的 估计 F(x), 设 p(z) 连续 ， 
并 取 区 域 RR 足够 小 , 以 至 于 p(x) 在 区 域 RR 的 体积 了 内 没有 什么 变化 , 则 有 


y(th) = 1— (7.1.4) 


P= 上 plzjdz S p(w)V (7.1.7) 


. 148 . 第 七 章 ”其 他 非 线性 判别 方法 


将 PP 的 估计 值 k/N 代入 , 得 到 任意 x 处 概率 密度 p(x) 的 估计 F(z) 为 
Pb(2) = 人， (7.1.8) 
显然 , 5(z) 与 总 样本 数 N、 区 域 体积 V 和 落 入 V 的 样本 数 k 有 关 . 因为 训练 
样本 集 的 样本 总 数 是 有 限 的 , 所 以 体积 V 不 可 能 任意 地 小 , 式 (7.1.7) 的 近似 使 得 
式 (7.1.8) 的 估计 有 一 定 的 方差 . 但 理论 上 可 以 证 明 , 车 满足 以 下 三 个 条 件 , 则 2(z) 
收敛 于 p(z): 


lim V=0 (7.1.9) 
一 oo 

lim 大 一 oo (7.1.10) 
人 一 Co 

Jim k/N=0 (7.1.11) 


在 实际 应 用 中 , 式 (7.1.9) 要 求 体积 V 充分 小 , 但 V 中 的 样本 数 按 式 (7.1.10) 要 
求 充分 大 , 同时 , 按 式 (7.1.11) 要 求 & 又 只 占 样 本 总 数 六 的 一 小 部 分 , 这 样 按 式 
(7.1.8) 确定 的 F(z) 收敛 于 p(z), 邑 为 p(x) 的 好 的 近似. 

1， 总 体 分 布 的 Parzen 核 函数 法 估计 

Parzen 核 函 数 法 是 一 种 常用 的 总 体 分 布 的 非 参数 估计 方法 . 在 Parzen 核 函数 
法 中 , 体积 V 以 N 的 某 个 函数 (如 Y = 1/VN) 的 关系 不 断 缩小 , 当 N 充分 大 时 
使 六 z) 收敛 于 p(z). 

利用 公式 (7.1.8), 并 假定 区 域 RR 是 一 个 边 长 为 h 的 超 立 方 体 , 即 


V=h" (7.1.12) 
定义 核 函 数 (kernal function) p(w)(w = (utu2 , Un)!) 


1， = | < 1/2,7= 1,2,.…, 
p(u) -1 ’ 当 jwjl / J n (7.1.13) 


0， 其 他 


利用 式 (7.1.13) 可 将 落 入 超 立方 体 V 内 的 样本 数 k 用 解析 式 表示 出 来 . 由 于 plu) 
是 以 原点 为 中 心 的 一 个 超 立方 体 , 所 以 , 当 样 本 z; 落 在 以 = 为 中 心 、 体 积 为 V 的 超 
立方 体内 时 ,pe(u) = 9 ( 于 空 ) = 3 而 当 样本 zi 纱 在 体积 Y 之 外 时 , p(w) = 0 
因此 落 入 超 立方 体 Y 内 的 样本 数 为 


k= > (<) (7.1.14) 
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将 它 代 入 式 (7.1.8) 得 


He) = 4b ( 各) (7.1.15) 


上 式 即 是 Parzen 核 函 数 法 估计 总 体 分 布 的 基本 公式 . 虽然 这 里 该 式 是 利用 超 立 方 
体 核 函数 推导 出 来 的 , 实际 上 也 适用 于 其 他 核 函数 . 

当然 我 们 要 问 , 式 (7.1.15) 给 定 的 估计 量 B(x) 是 不 是 一 个 合理 的 密度 函数 ? 即 
它 是 否 满 足下 述 条 件 : 


/ae)an 二 1 (7.1.16) 
我 们 发 现 ， 只 要 核 函 数 满足 以 下 条 件 : 


| vp(u)>0 
(7.1.17) 


/ plu)du=1 


即 核 函 数 本 身 具 有 密度 函数 的 形式 , 则 2(z) 一 定 是 一 个 密度 函数 . 证 明 如 下 ; 


Joan- [be ( 人 (三 je 


一 六 3 / p(w du = = 


可 见 , 只 要 核 本 数 p(w) = o (2 aa 就 可 用 式 (7.1.15) 给 


出 总 体 分 布 密度 函数 p(z) 的 估计 量 5(z)， 因此 除了 超 立 方 体 核 函数 外 , 还 可 选择 
满足 式 (7.1.17) 的 其 他 核 函数 . 几 个 一 维 的 例子 如 下 : 


1， 当 |w|<<1/2 
方 窗 核 函数 olu) = (7.1.18) 
0， 其 他 
uz 
正 态 核 函数 ”yl(w) = 记 中 人 ) (7.1.19) 
指数 核 函 数 ”gp(w) = exp {一 |ul} (7.1.20) 


它们 的 图 示 见 图 7.1. 
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(w) u 
P PW 0 


(a) (b) (¢) 
7.1 “ 几 种 核 函 数 
(a) 方 窗 核 函数 ; (b) 正 态 核 函数 ; (c) 指数 核 落 数 


在 样本 数 W 有 限时 , 窗 宽 h 对 估计 量 $5(zx) 的 品质 有 很 大 影响 . 其 原因 分 析 如 
下 . 定义 函数 gr(z) 为 


jv(z) = 六 9 (=) : (7.1.21) 


则 F(z) 可 以 视 为 NN 个 by(zw 一 zi) 函数 的 平均 值 : 
1 N 
Bz)= 2 ,dv(r— Ti) (7.1.22) 
t=1 


当 很 大 , 即 V = hr 很 大 , 5v(z - zi) 的 幅度 就 很 小 ; 同时 仅 当 lz 一 zi| 污 hh 时 
6v(Zz 一 zi) 与 bv(0) 差别 才 比 较 明显 . 这 时 P(x) 变 成 N 个 宽度 很 大 且 函 数值 变化 
缓慢 的 函数 的 释 加 ,从 而 它 是 总 体 分 布 p(z) 的 一 个 平均 估计 , 使 估计 的 分 辨 能 力 
降低 . 反之 , 当 h 很 小 , 6y(z 一 zi) 的 幅度 就 很 大 , (x) 变 成 NN 个 以 样本 z; 为 中 
心 的 尖峰 函数 的 又 加 , 使 估计 的 统计 涨 落 很 大 . 因此 , 对 于 样本 数 N 有 限 的 实际 情 
况 , 窗 宽 h 应 当 根 据 N 的 大 小 和 总 体 分 布 p(x) 的 形状 来 确定 其 适当 的 数值 . 

下 面 通 过 两 个 具体 的 例子 来 说 明 窗 宽 h 和 样本 量 N 的 大 小 如 何 影响 估计 量 
(2) 对 于 总 体 分 布 p(z) 的 接近 程度 . 

例 一 , 总 体 分 布 p(z) 为 一 维 标准 正 态 分 布 . 我 们 选择 式 (7.1.19) 的 正 态 核 函数 ， 
窗 宽 h 选 为 h = ho/VN 以 考察 样本 量 N 对 于 估计 量 5(z) 的 作用 , ho 取 三 个 值 
0.25, 1, 4 以 考察 窗 宽 h 对 于 估计 量 5(z) 的 作用 . 所 得 的 估计 量 5(x) 如 图 7.2 所 
示 . 当 N=1 时 , 所 得 的 估计 量 (xz) 与 其 说 是 总 体 分布 p(x) 的 估计 , 不 如 说 是 核 
函数 本 喘 . 随 着 样本 量 N 的 增 大 , F(z) 逐渐 逼近 总 体 分 布 p(z), 但 对 于 不 同 的 ho 
远近 的 速度 不 同 . 只 有 当 样 本 量 N 趋 于 无 穷 , (zx) 才 收 敛 于 真实 的 总 体 分 布 p(z). 
这 说 明 要 想得到 较 精 确 的 估计 , 必须 要 有 大 量 的 训练 样本 . : 
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7.2 ”Parzen 核 函 数 法 估计 一 维 正 态 分 布 


例 二 , 总 体 分 布 p(z) 为 两 个 隔离 的 均匀 分 布 构成 的 一 维 混合 概率 密度 : 


1, —2.5<T<—2 
p(T)= 4 0.25, 0<7z<2 (7.1.23) 
0， ”其 他 


正 态 核 函 数 ， 窗 宽 h 的 选择 与 例 一 相同 . 所 得 的 估计 量 5(z) 如 图 7.3 所 示 . 当 
N=256 及 ho = 1 时 , F(zw) 与 总 体 分 布 p(z) 就 较为 接近 了 . 同样 , 只 有 当 样 本 量 和 N 
趋 于 无 穷 , 5(z) 才 收 敛 于 真实 的 总 体 分 布 p(z). 

这 两 个 例子 反映 了 总 体 分 布 非 参数 估计 方法 的 一 些 性 质 和 存在 的 问题 . 非 参 数 
估计 的 优点 是 它 的 普 适 性 , 即 对 规则 或 不 规则 的 分 布 , 单 峰 或 多 峰 的 分 布 都 可 以 得 
到 其 密度 函数 的 估计 ; 而 且 只 要 样本 量 充分 大 , 总 可 以 收敛 于 任何 复杂 的 未 知 密度 
函数 . 其 缺点 是 要 想得到 较为 精确 的 估计 , 需要 远 比 参数 估计 方法 多 得 多 的 样本 量 ， 
因此 需要 大 量 的 计算 时 间 和 存储 量 . 

”最 佳 窗 宽 可 以 使 浙 近 平均 方差 达到 极 小 来 求 得 (44, 对 于 高 斯 型 核 函 数 , 最 佳 窗 
宽 为 


1/5 
hat) = ($) oxj)N Ys, j=1,2,..……,n (7.1.24) 
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其 中 c(zj) 是 z 的 第 ; 个 变量 的 标准 差 . 


N=256 


图 7.3 Parzen 核 函数 法 估计 两 个 隔离 的 一 维 均匀 分 布 


也 可 以 利用 所 谓 的 自 适应 方法 来 确定 窗 宽 [ 的 . 在 这 种 方法 中 窗 宽 不 是 一 个 固 
定常 数 , 而 是 随 着 总 体 分 布 p(x) 而 变化 . 设 非 自 适应 方法 的 窗 宽 为 hwa, 则 自 适应 
方法 的 窗 宽 ha 为 


ha(ji) = NA() j=1,2,...,n (7.1.25) 


在 实际 运算 时 , p(z) 用 其 估计 量 5(x) 作为 近似 . 

2. 总 体 分 布 的 kn 近邻 估计 

Parzen 核 函 数 估 计 中 存在 的 一 个 具体 问题 是 , 对 于 有 限 的 NN 值 , 5(z) 对 于 窗 
宽 初 值 ho 的 选择 很 敏感 ，ho 过 小 , 5(z) 的 形状 具有 统计 不 稳定 性 ; ho 过 大 , 5(z) 
的 形状 偏 于 平坦 , 不 能 反映 总 体 分 布 p(z) 的 细致 结构 . 为 解决 这 一 问题 , 提出 了 总 
体 分 布 的 knw 近邻 估计 法 . 

Parzen 核 函数 法 中 , 体积 V 是 样本 数 六 的 函数 ; 而 kw 近邻 估计 法 的 基本 思 
想 是 使 体积 V 是 样本 点 分 布 密度 的 函数 , 而 不 是 N 的 函数 . 为 了 利用 .N 个 训练 
样本 事例 估计 pz(z), 先 给 定 N 的 某 个 函数 ky, 以 z 点 为 中 心 在 其 周围 选择 一 个 
体积 了, 使 Y 中 的 训练 样本 数 为 kw 个 , 它们 是 样本 z 的 kw 个 近邻 样本 . 如 果 z 
点 附近 总 体 分 布 密度 比较 高 , 则 体积 V 比较 小 , 从 而 提高 分 辩 能 力 ; 如 果 z 点 附近 
密度 比较 低 , 则 体积 V 比较 大 . 
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kn 近邻 估计 仍 用 基本 估计 式 (7.1.8), 即 


F(z) = en/ 


假设 条 件 仍然 是 式 (7.1.9)~(7.1.11)，kw 可 取 为 N 的 某 个 函数 , 例如 kw 二 
koVN, ko > 1 为 某 个 给 定 的 整 常数 . 对 于 有 限 的 N 值 , ko 的 选择 也 会 影响 到 f(z)， 
这 一 瓜 与 Parzen 核 函 数 估 计 中 窗 宽 初 值 ho 的 选择 对 zz) 的 影响 类 似 . 同样 , 当 样 
本 量 N 趋 于 无 穷 , f(z) 收敛 于 真实 的 总 体 分 布 p(z). 图 7.4 显示 了 总 体 分 布 p(z) 
为 一 维 正 态 分 布 和 两 个 隔离 的 一 维 均匀 分 布 情形 下 kw 近邻 估计 的 结果 . kw 近邻 
法 也 存在 一 般 非 参数 估计 的 缺点 , 即 所 需 样本 量 很 多 . 测试 表明 , 对 于 一 维 总 体 分 
布 , 用 数 百 个 样本 一 般 可 以 得 到 较 好 的 结果 , 两 维 估计 则 需要 数 千 个 样本 , 随 着 维 
数 的 增加 , 样本 数 将 急剧 增多 , 因而 计算 量 和 存储 量 很 大 . 


=16 N=16 Kyx=4 N=1 Kl 


N= 


co Ky=™® N=256 K 


N: 


”图 7.4 kw 近邻 法 估计 一 维 正 态 分 布 和 两 个 隔离 的 一 维 均匀 分 布 


7.1.3 ”投影 似 然 比 估计 


所 谓 的 投影 似 然 比 估计 量 (projective likelihood estimator) 分 类 方法 的 , 是 指 
对 于 特征 向 量 xw = (z1,…,za)7 的 n 个 变量 不 相关 联 的 情形 , 这 时 概率 密度 ps(z) 
和 pe(z) 可 以 因子 化 为 n 个 变量 边沿 概率 密度 的 简单 乘积 , 即 


Ps(B) (ZT) = ps(B)(Z1)ps(B)(z2) .…* ps(B) (Tn). (7.1.26) 
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式 中 psce)(zj),j 二 1,2,.…,n 为 边沿 概率 密度 , 它们 是 归 一 化 的 , 即 有 
十 De 
/ Ds(B) (z7)d25 三 1， 了 一 12 用 (7.1.27) 


在 这 种 情形 下 , 多 维 随机 变量 的 分 析 可 以 化 作 n 个 互 不 相关 的 一 维 随机 变量 的 分 
析 来 处 理 . 

设 未 知 样本 i 的 特征 向 量 mi = (zi1( 让 … ,zn( 让 )7 第 了 个 变量 为 zj;(i), 7 = 
1,2,.…,n, 则 样本 i 被 视 为 信号 事例 的 可 能 性 由 其 似 然 值 Ls(i) 表征 : 


Ls(i) = | | 2s;; (2;0)) (7.1.28) 
j=1 
样本 i 被 视 为 本 底 事例 的 可 能 性 由 其 似 然 值 Lp(i) 表征 : 
Le(i) = [|[ pi (2;0)) (7.1.29) 
j=1 


样本 i 的 似 然 比 yL(i) 定义 为 


Lstli) 
写本 


这 一 似 然 比 可 作为 样本 i 的 类 别 的 判别 函数 . 设 定 一 个 阔 值 y(th), 决策 规则 可 表 

示 为 : 
yL(i) 之 L(th)， 样 本 i 判 为 信和 号 ; (7.1.31) 
所 人们 < y(th)， 样 本 i 判 为 本 底 . 和 


这 样 , 当 边 沿 概 率 密度 ps(py(7j),j 二 1,2,…,n 为 已 知 时 , 样本 的 分 类 问题 就 得 到 
了 解决 ， 当 边沿 概率 密度 ps(p)(z)),7 = 1,2,…,n 未 知 时 , 可 用 7.1.2 小 节 讨 论 的 
Parzen 核 函 数 法 或 kw 近邻 法 , 利用 训练 样本 直接 估计 . 

投影 似 然 比 估计 方法 的 训练 和 应 用 思想 简单 、 明确, 当 边 沿 概率 密度 pre by(z)) 
j = 1,2,…,n 为 已 知 时 , 其 计算 速度 很 快 , 适用 于 大 数据 样本 的 分 类 问题 . 当然 , 对 
于 绝 大 多 数 实际 问题 , 其 边沿 概率 密度 是 未 知 的 , 需要 用 训练 样本 来 确定 . 为 了 得 
到 概率 密度 的 好 的 近似 , 训练 样本 量 需 要 很 大 , 因而 计算 量 和 存储 量 很 大 . 但 这 样 
的 计算 只 需 进行 一 次 . 一旦 边沿 概率 密度 得 以 确定 ， 当 应 用 于 实际 数据 的 分 类 时 ， 
计算 便 十 分 简单 .投影 似 然 比方 法 的 主要 缺陷 是 它 没 有 考虑 特征 向 量 x 各 变量 
zj = 1 2 之 间 的 相互 关联 , 而 这 种 关联 在 绝 大 多 数 实 际 问题 中 总 是 存在 的 . 
这 就 使 得 投影 似 然 比 分 类 方法 的 错 分 率 总 是 比较 大 , 并 且 具 有 某 种 不 可 控制 性 . 这 
一 缺陷 极 大 地 限制 了 它 的 实际 应 用 . 


(7.1.30) 
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7.1.4 ”多 维 概率 密度 估计 


对 于 投影 似 然 比 分 类 方法 的 改进 自然 会 想到 利用 信号 样本 和 本 底 样本 的 多 维 
概率 密度 ps(z) 和 pe(z) 来 判别 样本 的 类 别 . 这 样 就 能 穷尽 特征 向 量 z = (x1,… 
zn)， 的 全 部 信息 , 因此 分 类 器 性 能 可 达到 最 优 . 为 此 需要 有 数量 无 券 大 的 信 号 样 
本 集 和 本 底 样 本 集 . 这 实际 上 是 无 法 实现 的 . 

T. Carli 和 B. Koblitsl43] 提出 了 一 种 简单 的 利用 训练 样本 估计 多 维 pz(z) 的 方 
法 , 称 为 PDE-RS (PDE range search) 方法 , 它 的 基本 思想 即 是 前 面 叙述 的 总 体 分 
布 的 kw 近邻 估计 . 

设 信号 /本 底 训 练 样本 集 的 总 样本 数 分 别 为 Ns 和 Ne. 又 设 待 分 类 样本 为 ri， 
其 近邻 体积 为 了,Y 中 的 信号 /本 底 事例 数 分 别 为 ns(i,V) 和 na 人 六 ), 应 用 kw 近 
邻 估计 公式 即 BscBp)(z2i) = ns(B)(i,V)/NstByV (参见 式 7.1.8) 并 代入 式 (7.1.1), 立即 
得 到 Gi) ~ 

ols 
yz V) = ng(s, + anp(i, V)’ 元 
似 然 比 y(zi,V) 是 待 分 类 样本 属于 信号 事例 的 概率 密度 在 x; 附近 的 局 部 估计 , 可 
作为 样本 x; 类别 的 判别 函数 . 设 定 一 个 阔 值 y(th), 决策 规则 可 表示 为 


y(zi,V) 之 y(th)， 样 本 zx; 判 为 信号 ; 
y(zi,V) < y(th)， 样 本 zi 判 为 本 底 . 


对 于 信号 训练 样本 , y(w;,V) 在 1 附近 将 出 现 峰值 ; 对 于 本 底 训练 样本 , y(zx;,V) 在 
0 附近 将 出 现 峰 值 . 这 种 估计 中 忽略 了 近邻 体积 V 中 的 概率 密度 的 变化 , 因而 是 一 
种 平均 估计 . PDE-RS 方法 实际 上 是 大 近邻 法 的 一 个 变种 . 

由 式 (7.1.32), 容易 求 得 y(zi,7) 的 统计 不 确定 性 : 


anp(i,V) 2 ans(i,V) 1 
和 (Ft V) +anp(i, VJ ™ one) - (Fst V) + ane(i, VL ro | 
(7.1.34) 
式 中 ons 和 os 是 VV 中 的 信号 /本 底 事例 数 ns(i,V) 和 ns(i,V) 的 统计 不 确定 性 . 


7.1.5 ”近邻 体积 中 样本 数 的 确定 


在 概率 密度 估计 法 中 , 当 利用 训练 样本 和 式 (7.1.8) 估计 z 处 的 概率 密度 ps (zx) 
和 pp(z) 时 , 以 及 PDE-RS 法 利用 式 (7.1.32) 计算 待 分 类 样本 z 的 似 然 比 y(z,V) 
时 , 都 要 计算 近邻 体积 V 内 的 (信号 /本 底 ) 训练 样本 数 . 显然 , 这 一 计算 需要 对 不 
同 的 > 值 多 次 进行 , 因此 需要 研发 一 种 适合 于 计算 机 的 算法 , 能 够 高 效 地 计算 近邻 
体积 V 内 的 (信号 /本 底 ) 训练 样本 数 . 


(7.1.32) 


(7.1.33) 


. 156. 第 七 章 ”其 他 非 线性 判别 方法 


有 两 种 算法 可 以 完成 这 种 计算 . 第 一 种 算法 基本 思想 极为 简单 , 即将 zx 的 整个 
空间 分 成 若干 个 子 区 间 , 记 下 每 个 子 区 间 内 的 样本 数 , 将 所 有 子 区 间 的 位 置 和 样本 
数 信息 以 列表 的 方式 存 入 计算 机 内 存 . 当 要 计算 样本 x 的 近邻 体积 V 内 的 样本 数 
时 , 只 要 对 属于 V 内 的 所 有 子 区 间 内 的 样本 数 求 和 即 可 . 显然 为 了 达到 足够 好 的 精 
度 , 子 区 间 体 积 应 当 比 近邻 体积 V 明显 地 小 . 当 训练 样本 数 NN 很 大 , 特征 向 量 z 
维 数 很 高 时 , 所 需 的 内 存量 很 大 ; 并 且 需 要 知道 训练 样本 集 的 xz 的 ”个 变量 的 上 
下 挤 . 

另 一 种 算法 称 为 二 叉 树 搜索 算法 (binary tree search algorithm, BTSA)L9, 这 
是 一 种 常用 的 更 为 有 效 的 算法 , 它 不 需要 知道 训练 样本 集 的 = 的 n 个 变量 的 上 、 
下 界 . 在 BTSA 中 , 对 N 个 信号 训练 样本 和 N 个 本 底 训 练 样本 分 别 建立 二 又 树 
Ts 和 Ts 存储 它们 的 信息 . 

我 们 用 图 7.5 来 说 明 二 维特 征 向 量 样本 集 的 二 叉 树 的 构建 4 假定 共有 N=7 
个 信号 样本 用 来 构建 二 叉 树 Ts. 其 中 的 数字 表示 样本 编号 , 它们 是 随机 地 指定 的 . 
.样本 的 位 置 如 图 7.5(a) 所 示 . 样本 1 中 的 ei(z1, zi) 被 指定 为 Ts 的 第 一 层 节 所 . 
样本 2 中 的 ea(za, za) 为 第 二 层 节点 , 在 决定 样本 2 为 样本 1 的 “ 右 ” 节 后 还 是 
“ 左 ” 节 点 时 , 需要 比较 el(zi,zz) 和 ez(Zz1, 2) 中 zi 坐标 值 的 大 小 , eo 的 zl 大 ， 
样本 2 被 指定 为 右 节点 . 样本 3 的 zi 大 于 样本 1 的 zi, 样本 3 应 被 指定 为 样本 
1 的 右 节点 , 但 样本 2 已 经 占据 了 第 二 层 节 点 的 位 置 , 所 以 样本 3 被 指定 为 第 三 层 
节点 , 而 且 因为 样本 3 的 zs 大 于 样本 2 的 zz, 故 样本 3 被 指定 为 样本 2 的 右 节 
点 . 哪 一 个 变量 (zi 或 zz) 用 来 比较 以 决定 “ 右 ” 节 点 还 是 “ 左 ” 节 点 取决 于 节 挟 
的 层 数 , 第 一 层 比 较 zi, 第 二 层 比较 zz, 第 三 层 比较 zx1( 因 为 特征 向 量 只 有 两 个 分 
量 ), 第 四 层 比较 za ……: 以 此 类 推 , 可 将 所 有 7 个 样本 构成 图 7.5(b) 所 示 的 ( 信 
号 ) 二 叉 树 . 对 于 高 维 的 特征 向 量 样本 集 , 可 用 类 似 的 方法 构建 二 又 树 . 对 于 NN 个 
样本 的 训练 集 , 构建 二 叉 树 所 需 的 时 间 tx N logo(N). 


(b) 
图 7.5 二 叉 树 搜索 算法 示意 图 (x 为 二 维特 征 向 量 ) 
(a) 数字 1~7 的 圆圈 标记 信号 样本 ; (b) 信号 二 叉 树 Ts 的 构建 


当 利 用 这 样 的 二 叉 树 了 确定 任意 样本 x 的 近邻 体积 V 内 的 样本 数 k 时 , 通 


7.1 概率 密度 估计 量 方法 “157. 


过 比较 V 的 边界 与 了 内 节点 的 坐标 来 决定 哪些 训练 样本 应 当 被 包含 在 V 内 , 再 
通过 简单 的 计数 即 求 得 值 [431. 所 需 的 时 间 仅 为 上 tc N logs(N). 
7.1.6 ”概率 密度 估计 法 与 神经 网 络 的 性 能 对 比 


我 们 通过 三 个 具体 的 例子 来 对 比 概率 密度 估计 的 PDE-RS 方法 与 人 工 神经 
网 络 的 性 能 . 应 当 强 调 指 出 , 这 种 性 能 对 比 仅 针对 这 里 的 具体 问题 , 它们 能 否 代 表 
PDE_RS 方法 与 ANN 方法 的 一 般 性 能 有 待 研究 . 

1. 例 一 , 两 维特 征 向 量 工 二 (zlza) ,7Z1 与 Z2 不 相关 

信号 样本 为 二 维 正 态 分 布 , 均值 和 标准 差 为 


元 19 一 4， as 一 3.5， 01s = 02s = 0.75. 
本 底 样本 为 二 维 正 态 分 布 , 均值 和 标准 兰 为 
FIB =3, jz2B=4.5, op =02B=1. 


图 7.6(a) 显示 了 信和 号 样本 和 本 底 样本 在 (zi, zz) 平面 上 的 分 布 . 
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图 7.6 PDE-RS 法 与 神经 网 络 (ANN) 的 性 能 对 比 
(a) 信和 号 样本 和 本 底 样本 在 (zl, zz) 平面 上 的 分 布 ; (b) PDE-RS 法 用 训练 样本 估计 的 PB(zw); 
(c) PDE-RS 法 得 到 的 似 然 比 y(z) 分 布 ; (d) PDE-RS 法 和 ANN 的 sss-sBB 关系 曲线 对 比 


我 们 以 N=100,000 个 信和 号 事例 训练 样本 和 100,000 个 本 底 事 例 训 练 样本 用 


PDE-RS 方法 估计 总 体 的 概率 密度 , 近邻 体积 取 为 V = 0.18 x 0.18, 得 到 的 估计 
(zx) 如 图 7.6(b) 所 示 . 信和 号 样本 和 本 底 样本 的 似 然 比 y(z) 则 如 图 7.6(c) 所 示 . 
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7.6(d) 的 横 坐 标 sss 为 一 个 信和 号 事例 被 分 类 器 判 为 信号 事例 的 概率 , 即 信 号 事例 的 
判 选 效率 ; 纵 坐 标 为 seB = 1 一 ess, 称 为 本 底 排 除 率 , 其 中 eps 为 一 个 本 底 事例 被 分 
类 器 正确 地 判 为 本 底 事 例 的 概率 , esp 为 一 个 本 底 事 例 被 分 类 器 错 判 为 “信号 ” 事 
例 的 概率 . 如 果 一 个 分 类 器 对 于 所 有 的 信号 /本 底 事例 都 能 正确 地 分 类 , 则 sss = 1， 
eBB 二 1. 这 时 , ess-eBB 关系 曲线 下 的 面积 4 为 边 长 1 的 正方 形 , 即 4=1. 实际 结 
. 果 是 Appgrs = 0.876 士 0.01. 误差 由 式 (7.1.34) 的 ov 推算 得 到 . 

如 果 用 三 层 前 向 BP 网 络 (参见 5.3 节 ) 来 求解 同样 的 问题 , 其 中 隐 含 层 的 节 
点 数 取 为 10, 则 有 4ANN = 0.877. 由 图 7.6(d) 知道 , PDE-RS 法 和 ANN 的 ess-eBB 
关系 曲线 基本 上 完全 重合 , 可 见 在 本 例 中 , PDE-RS 法 和 ANN 的 性 能 是 相似 的 . 

2. 例 二 , 两 维特 征 向 量 z= (ZT1,7T2) ,7T1 与 za 强烈 关联 

信号 样本 为 半径 7 = G(3,0.5) 的 正 态 (高 斯 ) 分 布 , 均值 和 标准 差 为 3 和 0.5. 

本 底 样本 为 半径 + = G(3,0.75) 的 正 态 分 布 . 

图 7.7(a) 显示 了 信号 样本 和 本 底 样本 在 (zx1, za) 平面 上 的 分 布 . 


7.7 PDE-RS 法 与 神经 网 络 (ANN) 的 性 能 对 比 
(a) 信号 样本 和 本 底 样本 在 (z1, rz) 平面 上 的 分 布 ; (b) PDE-RS 法 用 训练 样本 估计 的 方 (m); 
(c) PDB RS 法 得 到 的 似 然 比 y(z) 分 布 ; (d) PDE-RS 法 和 ANN 的 sss-sBB 关系 曲线 对 比 
图 下 部 的 实 线 表 示 PDE-RS 法 与 最 优 解 的 sss-sBB 曲线 的 差别 , 虚线 表示 ANN 法 与 
最 优 解 的 sss-sBB 曲线 的 差别 


7.1 概率 密度 估计 量 方 法 , 159 . 


我 们 以 N=100,000 个 信和 号 事例 训练 样本 和 100,000 个 本 底 事例 训练 样本 用 
PDE-RS 方法 估计 总 体 的 概率 密度 , 近邻 体积 取 为 V = 0.12 x 0.12, 得 到 的 估计 
zz) 如 图 7.7(b) 所 示 . 信号 样本 和 本 底 样本 的 似 然 比 y(z) 则 如 图 7.7(c) 所 示 . 
7.7(d) 为 PDE-RS 法 和 ANN 的 ess-epBp 关系 曲线 的 对 比 . Appgrs = 0.708 土 
0.031. 用 三 层 前 向 BP 网 络 求解 同样 的 问题 , 隐 含 层 的 节点 数 取 为 10, 则 有 4ANN = 
0.691. 

如 果 将 两 维特 征 向 量 z = (zl, za)7 转化 到 极 坐 标 中 , 则 成 为 一 个 一 维 (半径 7) 
样本 的 分 类 问题 , 因此 可 以 求 得 分 类 问题 的 最 优 解 . 图 7.7(d) 的 下 部 给 出 了 PDE- 
RS 法 (ANN 法 ) 与 最 优 解 的 ess-epp 曲线 的 差别 . PDE-RS 法 与 最 优 解 的 差别 比 
ANN 与 最 优 解 的 差别 要 小 , 即 PDE_RS 法 与 最 优 解 更 接近 . 

利用 同一 台 计 算 机 , PDE-RS 法 完成 上 述 计算 仅 需 224s, 而 完成 同样 的 工作 需 
要 34.6h 才能 构建 一 个 ANN, 而 要 求 得 ANN 的 权 值 则 需要 多 次 构建 ANN. 

本 例 说 明 , 对 于 特征 向 量 各 变量 高 度 关联 的 数据 , 无 论 在 信号 /本 底 鉴别 性 能 
上 , 还 是 在 计算 时 间 上 , PDE-RS 法 均 比 ANN 法 优越 . 

3. 例 三 , 5 维特 征 向 量 区 = (zl,z2,.…,z5)T, 各 变量 有 中 等 的 关联 

信号 样本 的 特征 向 量 zs 为 zs = Mzs, 其 中 


1 -1 0 0 0 G(4, 1) 
1 1 0 0 0 G(1, 1) 
M=| 0 0 1 0 0 |, zs = | G(2,1.5) 
0 0 0 1 1 G(2, 1) 
0 0 0 -1 1 G(1.5, 2) 


G(m,o) 表示 均值 m, 标准 差 c 的 正 态 随机 变量 ， 本 底 样本 的 特征 向 量 zp 为 
zB 二 Mzb, 其 中 ob = (G(4 1),G(2,1), G(3,1.5), G(1,1), G(0.5,1)T. 

图 7.8(a) 显示 了 信和 号 样本 和 本 底 样 本 5 维特 征 向 量 在 (zi, x2) 平面 上 的 投影 分 
布 . 以 N=500,000 个 信号 事例 训练 样本 和 500,000 个 本 底 事例 训练 样本 用 PDE_RS 
方法 估计 总 体 的 概率 密度 , 近邻 体积 取 为 V = 1.25 超 立 方 体 , 信号 样本 和 本 底 样 
本 的 似 然 比 y(z) 如 图 7.8(b) 所 示 . 图 7.8(c) 为 PDE-RS 法 和 ANN 的 Ess-EBB 关 
系 曲线 的 对 比 ，Appgrs = 0.906 土 0.008. 用 三 层 前 向 BP 网 络 求解 同样 的 问题 , 隐 
含 层 的 节点 数 取 为 10, 以 N=500,000 个 信号 事例 训练 样本 和 本 底 事 例 训 练 样本 对 
ANN 训练 1000 次 , 得 到 4ANN = 0.910. 

7.9(a) 显示 了 PDE-RS 法 在 信号 效率 ess = 0.7 情形 下 分 辨 能 力 > 与 近邻 
体积 V 的 边 长 h 的 关系 曲线 . 分 辨 能 力 7 定义 为 信号 效率 与 本 底 效 率 之 比 


7 = ESS/ssB 
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当 h 过 大 , 利用 样本 估计 得 到 的 (zx) 不 能 反映 真实 分 布 p(z) 的 细致 结构 ,导致 分 
辨 能 力 下 降 .h 过 小 , 近邻 体积 V 内 样本 数 过 少 , 统计 涨 落 过 大 导致 分 辨 能 力 下 降 . 
两 者 之 间 是 一 个 7 值 大 体 不 变 的 平台 区 . 测试 表明 , 在 一 个 适当 的 窗 宽 ( 边 长 ) 范 
围 内 , 分 辩 能 力 不 随 窗 宽 而 变化 是 PDE_-RS 方法 的 一 般 性 质 . 这 一 范围 随 着 训练 样 
本 数 的 增加 而 增 大 , 因此 , 利用 大 训练 样本 能 够 改善 PDE-RS 分 类 器 的 信号 /本 底 
分 辨 性 能 . 图 7.9(b) 显示 了 PDE-RS 法 的 计算 时 间 与 窗 宽 h 的 关系 . 当 h 增 大 时 
计算 时 间 明 显 增 大 . 另 一 方面 , 如 果 加 大 训练 样本 数 N, 计算 时 间 只 随 N 对 数 地 增 
大 , 即 t ~ logz(N). 因此 可 利用 增加 训练 样本 数 NN 并 减 小 h 来 达到 同样 的 分 辨 能 
力 . 例如 图 7.9(b) 中 N=100k, h=2.5 与 N=500k, h=0.8 (图 (b) 中 用 箭头 相连 的 
两 个 圆圈 标记 ) 有 相同 的 分 辩 能 力 , 但 后 者 的 计算 时 间 仅 为 前 者 的 1/10. 因此 , 利 
用 大 训练 样本 和 较 小 的 窗 宽 能 明显 减 小 PDE-RS 分 类 器 的 计算 时 间 . 


02 0406 08 1 0 04 0608 1 
(b) ” (©) ss 


7.8 ”PDE-RS 法 与 神经 网 络 (ANN) 的 性 能 对 比 
(a) 信号 样本 和 本 底 样本 在 (zl, zz) 平面 上 的 投影 分 布 ; (b) PDE-RS 法 得 到 的 似 然 比 y(z) 分 布 ; 
(c) PDE-RS 法 和 ANN 的 ess-eBB 关系 曲线 对 比 


TT (gss> 70 %) 


四 过 发 
图 7.9 PDE-RS 法 与 神经 网 络 (ANN) 的 性 能 对 比 
(a) PDE-RS 法 和 ANN 在 sss = 0.7 情形 下 分 辨 能 力 r 与 近邻 体积 边 长 h 的 关系 ; 
(b) PDE-RS 法 和 ANN 的 计算 时 间 与 h 的 关系 
ANN 分 类 器 的 性 能 和 计算 时 间 与 窗 宽 h 无 关 , 因为 它 不 是 ANN 分 类 器 的 参 
数 . 图 7.9 中 ANN 的 直线 也 是 利用 三 层 前 向 BP 网 络 得 到 的 , 其 隐 含 层 的 节点 数 
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为 10. 如 图 7.9(b) 所 示 , 如 果 采 用 N=500k, h=0.8 的 PDE-RS 分 类 器 , 它 的 计算 
时 间 仅 为 ANN 的 1/10, 而 两 者 的 性 能 是 相近 的 . 


7.2 五 矩阵 判别 


五 矩阵 判别 方法 [4 的 起 源 可 追溯 到 Fisherl171 和 Mahalanobisl47 对 于 两 个 多 
维 正 态 总 体 判别 的 工作 . 

设 有 由 Ns 个 信号 样本 和 Ns 个 本 底 样本 构成 的 训练 样本 集 , 它们 服从 ” 维 正 
态 分 布 , 即 样本 为 n 维特 征 向 量 . 它们 的 均值 可 由 样本 平均 估计 ; 


1 . . 
Fv; = N27 2 i(), j= 1,2,:...,n (7.2.1) 


式 中 , U 为 S 或 B 分 别 对 应 于 信号 和 本 底 , zj;(i) 表示 第 i 个 样本 第 ; 个 变量 的 值 . 
信号 和 本 底 总 体 的 协 方差 矩阵 可 由 样本 协 方差 矩阵 估计 : 


Ar 


>》 (zt(E) — Fv) (Lm(k) 一 元 rm) (7.2.2) 


开工 这 


Vem = Ny 


协 方差 矩阵 Vi 的 道 矩 阵 被 称 为 五 矩阵 , 即 
Hy = V7! (7.2.3) 


对 于 任意 待 判别 类 别 的 样本 zz 构造 信号 和 本 底 的 x? 估计 量 : 


XE) = 》， (zi 人 ) — jv0) Hvim (zm(i) — zum) (7.2.4) 
l,mn=1 
由 式 (1.3.14) 知 x%(i) 即 是 样本 zx; 到 Ns 个 信号 样本 和 Ns 个 本 底 样本 均值 的 
Mahalanobis ( 马 氏 ) 距离 . 马 氏 距离 考虑 了 样本 的 特征 向 量 分 量 的 统计 特性 , 特别 
是 考虑 了 各 分 量 的 相关 性 影响 . 它 是 x; 到 信号 (本 底 ) 样本 集 间 平均 距离 远近 的 
度量 , 即 x%(i) 越 小 , xz; 到 (信号 /本 底 ) 样本 集 间 平 均 距 离 越 近 . 这 样 , 就 可 以 根据 
X8(i) 和 (i) 值 来 决定 样本 x; 的 类 别 . 直观 地 , 可 以 预期 , 判别 规则 可 以 是 


| 验 G) < 鸡 ( 让 ，zi; 判 为 信号 ; 2 
xD) > 鸡 ( 中 ，z: 判 为 本 底 、 
利用 x8(i) 和 驹 () 来 构造 吾 矩阵 判别 方法 对 于 样本 z; 的 判别 函数 gu(i); 

gH(i) = XB (0) — Xs(O (7.2.6) 


XB() 十 X( 信 
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决策 面 方程 为 2 
(G) — xs(i) _ (7.2.7) ， 
决策 规则 为 


(7.2.8) 
gu(i) < 0， zi 判 为 本 底 / 
显然, 式 (7.2.8) 与 式 (7.2.5) 是 等 价 的 , 判别 函数 gu(i) 中 分 母 鸡 () + 鸡 (i) 只 起 
到 归 一 化 常数 的 作用 , 即使 得 


| gg(i) > 0， zi 判 为 信号 ; 


9H( € [—1,+1] 


因为 当 zw; = 5s (jzs 为 信号 样本 集 均 值 向 量 ) 时 , x2(i) = 0, ga(i) 达到 极 大 且 等 于 
1. 反之 , zi = Zp (ZB 为 本 底 样本 集 均 值 向 量 ) 时 , x%(i) = 0, guy(i) 达到 极 小 且 等 
于 一 1. 

将 式 (7.2.4) 和 式 (7.2.5) 与 多 维 正 态 条 件 概率 密度 的 贝 叶 斯 方法 的 判别 规则 
式 (2.3.3) 和 式 (2.3.4) 对 比 , 两 者 是 非常 相似 的 , 不 过 前 者 的 判别 函数 比 后 者 的 判 ， 
别 函 数 少 了 两 项 . 但 是 当 训练 样本 集 的 样本 数 确定 之 后 , 缺少 的 两 项 都 是 常数 . 这 
样 ， 当 我 们 利用 式 (7.2.6)~ (7.2.8) 作为 五 矩阵 判别 方法 的 判别 规则 时 , 它 与 多 维 
正 态 条 件 概率 密度 的 贝 叶 斯 方法 的 判别 规则 式 (2.3.3) 和 式 (2.3.4) 是 等 价 的 . 因此 
HH 矩阵 判别 方法 实际 上 是 两 类 问题 的 多 维 正 态 条 件 概率 密度 的 贝 叶 斯 判别 方法 . 

五 矩阵 判别 方法 的 优点 是 算法 简单 、 明 了 , 但 是 它 的 前 提 是 信号 /本 底 样本 集 
服从 多 维 正 态 分 布 , 这 限制 了 它 的 适用 范围 . 即使 符合 这 一 前 提 , Fisher 判别 方法 
的 性 能 也 与 之 相当 或 更 优 . 由 于 这 些 因素 , 五 矩阵 判别 方法 在 实际 中 使 用 较 少 . 


7.3 函数 判别 分 析 


分 类 器 的 实质 在 于 确定 一 个 最 佳 判 别 函 数 , 利用 它 来 确定 未 知 样本 的 类 别 . 

对 于 线性 不 可 分 的 样本 集 , 神经 网 络 、 决 策 树 和 下 面 即将 介绍 的 支持 向 量 机 提 
供 了 非 线性 关联 数据 判别 的 近似 解 , 如 果 所 选择 的 分 类 器 结构 足够 灵活 , 训练 样本 
统计 量 足 够 大 , 原则 上 可 达到 任意 精度 . 但 是 一 般 说 来 , 这 些 方法 比较 复杂 , 解析 程 
度 很 差 , 问题 的 求解 过 程 缺 乏 “ 透 明 性 ”. 

对 于 线性 可 分 的 样本 集 , 利用 第 三 章 讨 论 的 线性 判别 方法 可 以 实现 未 知 样本 类 
别 的 正确 判别 . 用 以 决定 样本 类 别 的 判别 函数 g(z) 为 特征 向 量 z 的 一 次 (线性 ) 函 
数 . 例如 对 于 两 类 问题 , Fisher 方法 的 判别 函数 g(z) 为 式 (3.2.21) 所 示 


9g(z) = WwW* Tz 一 yo 
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它 为 线性 关联 的 数据 提供 了 问题 的 解析 解 . 一 般 地 , 对 于 线性 不 可 分 的 数据 , 找 不 
到 这 样 的 判别 函数 . 在 实际 问题 中 , 往往 事先 无 法 知道 样本 集 是 否 线性 可 分 . 因此 
希望 能 找到 一 种 同时 适用 于 样本 集 线 性 可 分 和 线性 不 可 分 情况 的 算法 .这 种 算法 ， 
对 于 线性 可 分 问题 应 当 对 两 类 样本 集 的 所 有 样本 能 正确 地 分 类 ; 而 对 于 线性 不 可 分 
问题 , 则 能 得 到 一 个 被 错 分 的 样本 数 达 到 极 小 的 解 . 上 述 准则 称 为 最 小 错 分 样本 数 
准则 . 3.4 和 3.5 节 给 出 了 两 种 特定 的 符合 该 准则 的 算法 , 它们 的 共同 点 是 利用 规范 
化 增 广 样本 向 量 yw 和 权 向 量 v 构建 一 个 准则 函数 J(w), J(w) 取 极 小 值 或 极 大 值 
时 的 v 为 问题 的 最 优 解 v*. 这 里 准则 函数 J(v) 有 特定 的 形式 ( 见 34 和 3.5 节 的 
讨论 ). 这 类 方法 的 优点 是 解 题 方 法 相对 简单 , 而 且 问题 的 求解 过 程 具有 “透明 性 "， 
个 过 对 于 具有 复杂 非 线性 关联 的 数据 样本 , 其 判别 性 能 变 差 . 

文献 [45] 中 讨论 的 函数 判别 分 析 (function discriminant analysis, FDA) 与 最 小 
错 分 样本 数 准则 的 判别 函数 法 是 类 似 的 . 它 的 基本 思想 如 下 : 设 用 以 决定 样本 类 别 
的 判别 函数 为 g(z, a), 它 是 特征 向 量 = 和 可 调 参数 向 量 a = (a1, a2,.…, a)T 的 函 
数 . FDA 法 根据 类 别 已 知 的 训练 样本 集 进 行 训 练 , 使 得 对 于 信号 样本 , 判别 函数 的 
值 尽 可 能 接近 1, 本 底 样 本 的 判别 函数 的 值 尽 可 能 接近 0. 定义 估计 量 Q(a): 


Ql) = LV (9 (Ti )- + 9 (Pi, 4) (7.3.1) 
一 三 全 - wi Di 人 WB 全 i :过 


其 中 , Ns 和 Ns 为 训练 样本 集中 的 信号 样本 和 本 底 样本 数 , N = Ns + Ne w, 为 样 
本 i 的 权 值 , ws 和 we 为 训练 样本 集中 的 信号 样本 和 本 底 样 本 权 值 之 和 , 即 


Ns Na 
ws 一 wi, WB 一 Dw. (7.3.2) 
i=1 一 1 


一 般 情 况 下 , 如 果 认 为 每 个 样本 点 的 重要 性 是 相等 的 , 则 对 每 一 个 样本 点 赋予 同样 
的 权重 , 这 时 有 
MW 1 = 1,2,..….,N; 


Ns NB 
NW “B= 
如 果 每 个 样本 点 的 抽取 是 不 等 概率 的 , 那么 , 每 一 个 样本 点 的 权重 ww 可 以 不 同 . 

由 Q(a) 定义 可 知 , 它 是 N 个 训练 样本 的 判别 函数 g(z, a) 值 与 其 预期 值 ( 信 
号 样本 为 1, 本 底 样本 为 0) 的 离 差 的 加 权 平 方 和 . Q(a) 的 大 小 是 判别 函数 g(x, a) 
保 真 性 的 度量 , 8(a) 越 接近 于 0, 样本 的 错 分 率 越 小 . 因此 Q(a) 的 极 小 值 对 应 的 
可 调 参数 向 量 a 的 值 a* 即 为 问题 的 解 ; 


Qmin(a) = Q(a”). (7.3.4) 


(7.3.3) 
ws 二 
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Q(a) 的 极 小 值 可 通过 现成 的 极 小 化 程序 包 (如 MINUITI[48]) 求解 . 这 样 , 给 定 冰 值 
0 < gtn < 1, 对 于 任意 类 别 未 知 的 样本 z', 决策 规则 为 


g(x ,a*) 之 gtn， 2 判 为 信号 ; 
g(z' ,a*) < gth， zw' 判 为 本 底 . (7.3.5) 


显然 Q(a) 的 极 小 值 Qmin(a) = Q(e*) 的 大 小 取决 于 羯 别 函 数 g(z,a) 的 选择 . 
Qmin(a) 越 接 近 于 0 对 应 的 判别 函数 g(x,a) 具有 更 强 的 判别 性 能 . 但 是 文献 [45] 
并 没有 给 出 确定 判别 函数 g(z, a) 形式 和 可 调 参数 向 量 a 的 分 量 个 数 的 方法 , 这 些 
是 需要 研究 者 根据 自身 对 于 问题 的 了 解 和 经 验 加 以 确定 的 . 

但 是 , 我 们 可 以 从 Fisher 方法 对 于 判别 函数 的 确定 方法 得 到 判别 函数 g(x, a) 
形式 的 启示 . Fisher 方法 的 判别 函数 为 , 对 于 任意 类 别 未 知 的 样本 zx', 决策 规则 为 
式 (3.2.21) 所 示 


g(ZT 二 Ww*Tz' 一 yo 之 0， zw' 判 为 信号 ; 
Tz' 一 加 <0， x’ 判 为 本 底 . 


9g(Z ) 一 2 


它们 可 以 改写 为 


| gF (2’) = Ww* TL’. 和 > gth， ZT/ 判 为 信号 ; 
yo 
(7.3.6) 


gF (2') = w* Te’ 人 < gh，2z' 判 为 本 底 . 
0 


式 (7.3.6) 与 式 (7.3.5) 有 相似 的 形式 . 这 种 相似 性 提示 我 们 , 可 以 将 xz!' 的 线性 函数 
gr (Zz') 作为 判别 函数 g(x, a) 的 线性 部 分 的 近似 , 再 加 上 若干 个 非 线 性 项 , 应 当 就 
是 g(xz,a) 的 比较 适当 的 形式 . 至 于 非 线性 项 的 多 少 和 最 高 千 次 的 大 小 , 则 需 根 据 
研究 者 对 于 问题 的 了 解 和 经 验 通过 试验 加 以 确定 . 对 于 非 线性 关联 的 训练 样本 集 ， 
检查 训练 样本 集 特征 向 量 各 变量 之 间 的 样本 协 方差 第 阵 可 给 出 各 变量 之 间 关 联 强 
度 的 信息 , 检查 各 变量 之 间 等 概率 包 络 面 的 形状 可 给 出 关联 和 罕 次 的 信息 ， 从 而 有 助 
于 决定 关联 项 的 多 少 和 和 帘 次 . 

对 于 关联 不 太 复杂 的 数据 样本 , 采用 多 项 式 函 数 作为 判别 函数 g(x, a) 通常 是 
不 错 的 选择 . 例如 对 于 特征 向 量 有 三 个 分 量 、 考 虑 到 二 次 究 的 多 项 式 函 数 , 判别 函 
“ 数 g(x,a) 有 如 下 的 形式 : 


g(z,0) = 00 十 Q171 十 G272 十 Q373 十 Q47172 + Q5Z173 + a6T2T3 


十 q723 十 as2Z2 十 Q973. 
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这 里 有 10 个 待定 参数 a = {ao,a1,… ,09}. 如 果 对 数据 样本 的 关联 有 所 了 解 ， 知道 
某 些 变量 之 间 的 关联 系数 很 小 , 则 可 以 略 去 相应 的 待定 参数 , 这 样 可 以 减 小 计算 量 . 
对 于 特征 变量 之 间 比 较 复 杂 的 关联 , 比如 指数 关联 、 对 数 关 联 或 其 他 更 复杂 函数 形 
式 的 关联 , 如 果 研 究 者 通过 对 样本 分 布 的 研究 已 经 有 了 明确 的 结论 , 也 可 以 在 判别 函 
数 中 加 上 对 应 的 关联 项 . 

函数 判别 分 析 方 法 中 , 判别 函数 具有 解析 形式 , 因而 解 题 方法 相对 简单 ,而且 
问题 的 求解 过 程 具有 “透明 性 ”, 算法 易于 跟踪 和 调整 . 由 于 函数 判别 分 析 可 以 包含 
非 线性 关联 项 , 因此 对 于 存在 非 线性 关联 的 数据 样本 , 其 判别 性 能 应 该 优 于 最 小 错 
分 样本 数 准 则 的 线性 判别 函数 法 . 对 于 具有 复杂 非 线性 关联 的 数据 样本 , 其 判别 性 
能 取决 于 判别 函数 的 “ 保 真 性 ”". 由 于 复杂 非 线 性 关联 一 般 来 说 很 难 用 解析 表 式 加 
以 精确 描述 , 因此 , 对 于 这 类 数据 样本 , 其 判别 性 能 一 般 来 说 不 如 神经 网 络 、 决 策 树 
和 下 面 即将 介绍 的 支持 向 量 机 . 


7.4 支持 向 量 机 


传统 的 统计 模式 识别 方法 都 是 在 样本 数量 足够 大 的 前 提 下 进行 研究 的 , 只 有 
在 样本 数 趋向 无 穷 大 时 其 性 能 才 有 理论 上 的 保证 ，V.N.Vapnik 等 人 早 在 20 世纪 
60 年 代 就 开始 研究 有 限 样本 情况 下 的 机 器 学 习 问 题 te,50.， 直到 90 年 代 中 才 形 成 
一 个 较 完 善 的 理论 体系 统计 学 习 理 论 (statistical learning theory, SLT), 为 
研究 有 限 样本 量 情况 下 的 统计 模式 识别 建立 了 一 个 理论 框架 [50.50]，1992~1995 年 
间 51~53], 在 统计 学 习 理 论 的 基础 上 , 发 展 了 一 种 新 的 模式 识别 方法 ~ 支持 向 量 
机 (support vector machine, SVM), 在 解决 小 样本 、 非 线性 及 高 维 模式 识别 问题 中 
表现 出 许多 特有 的 优势 . 统计 学 习 理 论 和 支持 向 量 机 已 经 成 为 国际 上 机 器 学 习 领 
域 新 的 研究 热点 . 

统计 模式 识别 问题 可 以 看 作 一 个 更 广义 问题 一 基于 数据 的 机 器 学 习 问 题 
一 一 的 特例 . 基于 数据 的 机 器 学 习 问 题 是 现代 智能 技术 中 十 分 重要 的 一 个 方面 , 主 
要 研究 如 何 从 观测 数据 (样本 ) 出 发 求 得 尚 不 能 通过 原理 分 析 得 到 的 规律 , 利用 这 
些 规律 再 对 未 来 数据 或 无 法 观测 的 数据 进行 预测 . 当 我 们 把 要 研究 的 规律 抽象 成 
分 类 关系 时 , 这 种 机 器 学 习 问 题 就 是 模式 识别 . 


7.4.1 最 优 分 类 面 


支持 向 量 机 是 统计 学 习 理 论 中 最 实用 的 部 分 , 其 核心 思想 是 将 结构 风险 最 小 化 
原则 引入 分 类 方法 之 中 . 

SVM 方法 是 从 线性 可 分 情形 下 的 最 优 分 类 面 (optimal hyperplane) 问题 引出 
的 ， 本 节 的 讨论 中 , 假定 样本 分 为 信号 和 本 底 两 个 类 别 , 并 首先 讨论 线性 可 分 的 
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情形 . 考虑 图 7.10 所 示 的 两 类 线性 可 分 的 样本 , 图 中 的 实心 和 空心 点 分 别 表示 两 
类 的 训练 样本 ,五 为 把 两 类 样本 正确 无 误 地 分 开 的 分 类 线 ， Hi1,H2 分 别 为 过 两 类 样 
本 离 分 类 线 最 近 的 点 上 且 平行 于 五 的 直线 ，Hi,Hz 间 的 距离 称 为 两 类 的 分 类 间 隐 
(margin). 所 谓 最 优 分 类 线 就 是 要 求 分 类 线 不 但 能 将 两 类 样本 正确 无 误 地 分 开 , 而 
且 能 使 两 类 的 分 类 间隙 最 大 . 前 一 要 求 是 为 了 保证 经 验 风险 最 小 , 而 后 一 要 求 是 使 
真实 风险 最 小 . 推广 到 高 维 空间 , 最 优 分 类 线 就 成 为 最 优 分 类 面 . 


分 类 间隙 
= 2/llull 


图 7.10 最 优 分 类 面 示意 图 


设 样本 集 包 含 NN 个 样本 : zi = 1,2,…,NN, zi e R", 样本 的 类 别 用 y; € {十 1, 一 1} 
表示 . 由 式 (3.1.3) 知 两 类 情况 下 线性 判别 函数 的 一 般 表 式 为 g(z) = 二 岂 :x 十 b, 当 
g(zi) > 0, 样本 类 别 y; = +1 当 g(zi) < 0, yi = 一 1. 分 类 面 方程 为 


9(Z) 一 了 :2 十 一 0. (7.4.1) 


可 以 适当 选择 w 和 4b 的 乘 因子 , 使 得 两 类 的 所 有 样本 都 满足 |g(z)| > 1, 即使 离 
分 类 面 最 近 的 样本 满足 |g(z)| = 1, 这 样 , 两 类 的 分 类 间隙 (margin) 就 等 于 2/ ||eo| 
(参见 3.1 节 “线性 判别 函数 ")， 因 此 使 分 类 间距 最 大 等 价 于 使 jjwl| (或 le 最 
小 ; 而 要 求 分 类 面 对 所 有 样本 分 类 正确 就 是 要 求 满足 


will Ti+b)—120, t=1,2,...,N. (7.4.2) 


因此 , 满足 上 述 条 件 并 使 ||w|l? 最 小 的 分 类 面 就 是 最 优 分 类 面 . 过 两 类 样本 离 分 类 
面 最 近 的 点 且 平 行 于 最 优 分 类 面 互 的 超 平面 ,8。 上 的 训练 样本 就 是 式 (7.4.2) 
中 使 等 号 成 立 的 那些 样本 , 它们 被 称 为 支持 向 量 (support vectors), 因为 它们 支撑 
了 最 优 分 类 面 . 在 图 7.10 中 它们 用 加 图 标 出 的 点 所 示 . 

下 面 来 讨论 如 何 求 得 最 优 分 类 面 . 根据 上 面 的 讨论 , 最 优 分 类 面 的 求解 可 以 表 
示 为 在 条 件 式 (7.4.2) 的 约束 下 , 求 函数 


p(w) = hwll /2 = ww/2 (7.4.3) 


7.4 ”支持 向 量 机 . 167 . 


的 极 小 值 问 题 . 为 此 , 定义 Lagrange 函数 


N 
L(w,b,a) 一 (wo .四 -ya (yi (ap zi + b) — 1], (7.4.4) 
?一 工 
其 中 , ai > 0 为 Lagrange 系数 . 
我 们 的 问题 化 为 求 Lagrange 函数 对 w 和 。 的 极 小 值 , 并 同时 满足 Lagrange 
函数 对 于 所 有 的 o 的 导数 等 于 0, 以 及 a > 0. 将 式 (7.4.4) 分 别 对 w 和 bb 求 导 并 
令 它 们 等 于 0, 得 到 


N 
10 三 > OYiTi) 
i=1 


N 
> Vi = 0. (7.4.5) 
i=1 


Wolf 对 偶 间 题 告诉 我 们 的 , 在 工 (w,b,a) 函数 对 w 和 4。 的 导数 等 于 0, 并 满足 约 
束 a > 0 的 条 件 下 , 工 (w,b,a) 对 于 oi; 的 极 大 值 解 与 工 (1w,b,a) 对 w 和 5。 的 极 
小 值 解 将 得 到 同样 的 解 w*, b* 和 oa*. 将 式 (7.4.5) 代入 式 (7.4.4), 我 们 的 问题 转化 
为 在 满足 约束 ou > 0(i = 1,2,…,N) 的 条 件 下 对 um 求解 下 列 称 为 对 偶 函 数 的 最 
大 值 

N ] N 

Q (0) = D0 >》 iO YY (Ti Tj). (7.4.6) 
?一 工 


?7 一 1 


一 般 , @ (a) 的 最 大 值 解 a? 需 用 训练 样本 特征 向 量 zi(i = 1,2,…,N) 及 其 类 别 yj 
通过 数值 方法 求 得 . 车 a? 为 最 优 解 , 则 有 


WwW’* = afr (7.4.7) 
i=—1 


即 最 优 分 类 面 的 权 系 数 向 量 是 训练 样本 向 量 的 线性 组 合 . 
这 是 一 个 不 等 式 约束 下 的 二 次 函数 极 值 问 题 ， 存 在 唯一 解 . 且 根 据 Karush- 
Kiihn-Tucker 条 件 54, 这 个 优化 问题 的 解 须 满足 


ou [bi (wo .zi 十 人 一 下 =0， 1=1,2,...,N. (7.4.8) 


因此 , 对 照 式 (7.4.2)yi(w :zi 十 一 1 > 0,i= 1,2,…,N 可 知 ， 只 有 该 式 等 号 成 立 
的 样本 , 即 支持 向 量 对 应 的 ax 不 为 0, 而 其 他 所 有 样本 对 应 的 at 须 等 于 0. 
求解 上 述 问 题 后 得 到 的 最 优 分 类 函数 是 
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N 
f(x) = sgn(w :££+b) = sgn b> Qt yi (Zi 人) 十 | . (7.4.9) 


注意 , 由 于 非 支持 向 量 对 应 的 ar 均等 于 0, 式 (7.4.7) 和 (7.4.9) 中 的 求 和 实际 上 只 
对 少数 支持 向 量 进行 ，b* 是 分 类 的 阀 值 , 可 以 由 任意 一 个 支持 向 量 通过 式 (7.4.8) 
求 得 / 

b* = yi — Ww pi. (7.4.10) 
对 于 实际 应 用 , 取 所 有 支持 向 量 计算 得 到 的 b* 值 的 平均 作为 阔 值 更 为 安全 . 这 样 ， 
对 于 任意 未 知 待 分 类 样本 z, 就 可 由 式 (7.4.9) 求 得 其 类 别 y = f(zx). 
7.4.2 ”广义 最 优 分 类 面 z 


最 优 分 类 面 是 在 线性 可 分 的 前 提 下 讨论 的 . 当 样 本 线性 不 可 分 , 即 某 些 训练 样 
本 不 能 满足 式 (7.4.2) 规定 的 条 件 , 可 将 约束 条 件 修改 为 


Vi(W 2 十 人 一 1 十 占 冯 0，  &207=1,2,.…,N. (7.4.11) 


其 中 , 5 称 为 “松弛 量 ” (slack variable). 当 样 本 x; 落 在 分 类 面 H: g(z) = wxw+b = 
0 上 时 有 & = 1, 故 当 样本 zx; 被 分 类 面 矿 错 分 时 必 有 &; > 1. 于 是 量 >，& 可 视 
为 NN 个 训练 样本 中 被 错 分 的 样本 数 的 上 界 . 现在 , 样本 线性 不 可 分 情形 下 的 广义 
最 优 分 类 面 问 题 可 演化 为 在 条 件 式 (7.4.11) 的 约束 下 求 函数 


1 全 
p(w,é&) 一 林 ID 也 十 CO_& (7.4.12) 
4 一 工 
的 极 小 值 . 式 中 C 称 为 费用 参数 (cost parameter), 它 是 一 个 给 定 的 常数 , 起 着 控制 
对 错 分 样本 惩罚 程度 的 作用 . C 越 大 , 对 错 分 样本 的 惩罚 程度 越 高 . 因此 , Lagrange 
沙 数 为 


人 N 
L (w, b, OY, £) 一 (ono)+Cy 4》 Ci [ys (w "Ti 十 b) 一 十 &]— >, Miti, (7.4.13) 


i 二 1 t=1 一 工 


其 中 , x; > 0 是 为 了 保证 & > 0 而 引入 的 Lagrange 系数 . 将 式 (7.4.13) 分 别 对 也 
和 4b 求 导 并 令 它 们 等 于 0, 得 到 与 式 (7.4.5) 同样 的 结果 ， 


N 
20 一 》 Ci 人 ii， 
i=1 
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N 
>》， ?iai 一 0. 
;一 1 
将 式 (7.4.13) 对 & 求 导 并 令 它们 等 于 0, 得 到 
oai 十 1 一 人 (7.4.14) 


因为 a; > 0, pa > 0, 所 以 式 (7.4.14) 表示 C 是 oi, pw; 的 上 界 . 
用 与 求解 最 优 分 类 面 同样 的 Wolf 对 偶 问 题 方法 求解 这 一 优化 问题 ,同样 得 到 
一 个 二 次 函数 的 极 值 问题 , 其 结果 与 线性 可 分 情形 下 得 到 的 式 (7.4.5)~(7.4.7) 和 
(7.4.9) 几乎 完全 相同 , 只 是 在 求解 式 (7.4.6) 的 对 偶 函 数 Q(a) 对 au; 的 最 大 值 时 要 
求 满足 
C>oau>0 1=12.. NMN (7.4.15) 
来 代替 原 约束 条 件 a; > 0(i = 1,2,…,NN) 即 可 [55， 因此 , 对 于 样本 线性 不 可 分 的 
情形 , 广义 最 优 分 类 面 的 解 仍 由 式 (7.4.7) 表示 , 对 任意 未 知 待 分 类 样本 z, 仍 由 式 
(7.4.9) 求 得 其 类 别 y = f(x). 同样 , 式 中 的 求 和 实际 上 只 对 少数 支持 向 量 进 行 . 式 中 
的 分 类 闭 值 * 根据 如 下 方法 计算 . 由 于 上 述 优 化 问题 须 满足 Karush_Kiihn-Tucker 
补充 条 件 : 
oilyi wzit+b)—1+é]=0 i=1,2,...,N. (7.4.16) 
mti=0, i=1,2,...,N. (7.4.17) 


由 式 (7.4.14) 和 式 (7.4.17) 知 , 对 于 满足 C > ai > 0 的 任意 样本 有 j; > 0,&; = 0， 
因此 据 式 (7.4.16) 知 , 选择 满足 C > a; > 0 的 任意 样本 x;, 分 类 阔 值 * 可 按 下 式 
计算 : 

b* =y— ww. gi. (7.4.18) 
对 于 实际 应 用 , 取 所 有 满足 C > ai > 0 的 训练 样本 计算 得 到 的 x 值 的 平均 作为 阐 
值 更 为 安全 . 


7.4.3 ”支持 向 量 机 


上 面 讨 论 的 最 优 分 类 面 和 广义 最 优 分 类 面 问题 中 ,其 分 类 判别 函数 式 (7.4.9) 
中 只 包含 待 分 类 样本 = 与 训练 样本 中 的 支持 向 量 的 内 积 运 算 mi . z. 可 见 , 要 解决 
一 个 特征 空间 中 的 最 优 线性 分 类 问题 ， 只 需要 知道 这 个 空间 中 的 内 积 运算 
即 可 . 

回顾 3.1 节 中 的 广义 线性 判别 函数 问题 , 如 果 一 个 问题 在 其 定义 的 空间 中 不 
是 线性 可 分 的 , 这 时 可 以 考虑 构造 新 的 特征 向 量 ,把 问题 转换 到 一 个 新 的 、 更 高 
维 的 空间 中 , 在 那里 可 以 用 线性 判别 函数 实现 原 空间 中 的 非 线性 判别 .比如 构造 
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y = [1 zx x2] 人 ,就 可 以 用 线性 函数 g(y) = vTy 实现 g(z) = co 十 c1z 十 cox? 的 非 线性 
判别 问题 , 其 中 广义 权 癌 量 为 v = [co cl cz]T. 实际 上 , 一 般 来 说 , 对 于 任意 高 次 的 
判别 函数 , 都 可 以 通过 适当 的 变换 转化 为 更 高 维 空间 中 的 线性 判别 函数 来 处 理 . 这 
时 变换 后 的 空间 中 的 线性 判别 函数 称 为 广义 线性 判别 函数 . 

按照 广义 线性 判别 函数 的 思路 ， 要 解决 一 个 非 线 性 问题 ,可 以 设法 将 它 通过 
非 线性 变换 (用 函数 yp 表示 ) 转化 为 另 一 个 更 高 维 空间 G 中 的 线性 问题 , 在 这 个 
空间 中 求 最 优 或 广义 最 优 分 类 面 , 这 时 原 空间 中 的 内 积 zx; .zz 在 G 空间 中 变 为 
p(wi) . p(z). 统计 学 习 理 论 指出 53, 根据 Hilbert-Schmidt 原理 , 只 要 满足 Mercer 
条 件 , 点 积 p(zi) :yp(z) 可 以 用 核 消 数 (Kernel function) K (zw, zi;) 作为 近似 . Mercer 
条 件 指 的 是 , 对 于 任意 的 对 称 函 数 K(z, zz), 它 是 某 个 特征 空间 中 的 内 积 运算 的 充 
分 必要 条 件 是 , 对 于 任意 的 p(z) 和 关 0 且 Jp2(e)dz < co 有 


由 ez)yeloee)anda > 0. (7.4.19) 


这 一 条 件 通常 不 难 满足 . 这 样 我 们 就 可 以 避免 变换 函数 p(z) 的 计算 , 因为 p(x) 的 
严格 表 式 难以 从 训练 数据 导出 . 
在 这 种 情况 下 , 式 (7.4.6) 的 优化 函数 变 为 


N N 

. 1 

Q(a)= > os 一 了 ”aia yiyiK (vi, zh， (7.4.20) 
%=] 


2,7 一 二 


而 相应 的 判别 函数 式 (7.4.9) 也 应 变 为 


f(z£) 一 sgn(a .z+ bb) = sgn b> QViK (Ri, TL) 十 "| . (7.4.21) 
i=1 

算法 的 其 他 部 分 不 变 . 这 就 是 支持 向 量 机 算法 . 由 于 判别 函数 中 只 包含 未 知 样本 z 
与 支持 问 量 z; 的 点 积 求 和 , 因此 计算 量 取决 于 支持 向 量 的 个 数 . 

支持 向 量 机 求 得 的 分 类 函数 形式 上 类 似 于 一 个 神经 网 络 , 其 输出 是 若干 中 间 层 
节点 的 线性 组 合 , 每 一 个 中 间 层 节点 对 应 于 输入 样本 与 一 个 支持 向 量 的 点 积 , 因此 
支持 向 量 机 也 被 称 为 支持 向 量 网 络 , 如 图 7.11 所 示 . 

利用 不 同 的 核 函 数 将 导致 不 同 的 支持 向 量 机 算法 , 目前 研究 的 核 函数 主要 有 三 
类 , 它们 与 已 有 的 方法 有 对 应 关系 . 

(1) 多 项 式 核 函数 

K(z, £2i) = (7 wi 1)", (7.4.22) 


此 时 的 支持 癌 量 机 是 一 个 g 阶 多 项 式 分 类 器 . 


7.4 支持 向 量 机 .171 . 


输出 (决策 规则 ); 
ysgn( EK, 可 十 中 
权 值 ww 二 oy 


基于 s 个 支持 向 量 mm, 四 … ,zc, 的 非 
线性 变换 (内 积 ) 


输入 向 量 T 二 (21， 2 ,2 


图 7.11 支持 向 量 机 示意 图 
(2) 高 斯 型 核 函数 


K(z, mi) = exp -| ， (7.4.23) 
些 时 的 支持 向 量 机 是 一 种 径 向 基 函 数 分 类 器 . 它 与 一 般 的 径 向 基 函 数 (RBP) 方法 
的 基本 区 别 是 , 这 里 每 一 个 基 函 数 的 中 心 对 应 于 一 个 支持 向 量 , 它们 以 及 输出 权 值 
都 是 由 算法 自动 确定 的 . 
(3) S 型 核 函 数 
K(x, zi) 一 tanh[k(z . zi) + 0 , (7.4.24) 


此 时 的 支持 向 量 机 是 一 个 多 层 感知 器 神经 网 络 , 但 网 络 的 权 信和 网 络 隐 层 节点 的 儿 
目 都 是 由 算法 自动 确定 的 . 

式 (7.4.22)~(7.4.24) 中 的 q,0, 6,6 都 是 可 选 常数 应 当 指 出 ， 在 这 三 种 常用 的 
核 函数 中 ， 前 两 种 满足 Mercer 条 件 , 而 $ 型 核 函 数 只 对 某 些 特定 ,9 值 才 满足 
Mercer 条 件 . 

图 7.12 是 利用 g=2 的 多 项 式 核 函 数 的 支持 向 量 机 算法 对 两 类 样本 的 分 类 疆 


图 7.12 gq=2 的 多 项 式 核 函 数 支 持 向 量 机 分 类 结果 
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果 示 意图 . 图 中 小 圆圈 和 黑 点 代表 两 类 样本 点 , 虚线 画 出 了 g=2 的 多 项 式 核 函数 
求 得 的 支持 向 量 机 分 类 线 , 划 圆 圈 的 样本 点 是 求 得 的 支持 向 量 , 划 又 的 样本 反 表 示 
错 分 的 样本 . 

关于 支持 向 量 机 的 错 分 率 , 有 如 下 结论 : 如 果 一 组 训练 样本 能 被 一 个 最 优 分 类 
面 或 广义 最 优 分 类 面 分 开 , 则 对 于 测试 样本 分 类 错误 率 的 期 望 值 的 上 和 界 等 于 训练 样 
本 集中 支持 向 量 个 数 Nsv 的 平均 值 占 训 练 样本 总 数 入 的 比例 , 即 
El[Nsv] 
N—1. 
因此 , 当 支 持 向 量 个 数 Nsv 很 小 时 , 错 分 率 也 很 小 . 而 且 , 错 分 率 与 核 函 数 的 选择 
关系 不 大 . 此 外 , 在 满足 Mercer 条 件 的 情形 下 , 相应 的 最 优化 问题 是 一 个 四 二 次 项 
的 极 小 化 问题 , 其 解 收敛 于 全 局 极 小 , 这 一 点 比 可 能 收敛 于 局 部 极 小 的 神经 网 络 要 
来 得 优越 . 

对 于 三 种 常用 的 核 函数 的 支持 向 量 机 的 对 比 研 究 表 明 , 不 同 核 函数 的 支持 问 量 
机 其 性 能 是 相近 的 , 不 像 神 经 网 络 那样 十 分 依赖 于 模型 的 选择 , 此 外 三 种 核 函 数 求 
得 的 支持 向 量 个 数 只 是 训练 样本 总 数 的 很 小 一 部 分 , 而 且 三 组 支持 向 量 中 大 部 分 是 
重合 的 . 当然 , 这 些 优点 只 是 来 自 于 具体 的 对 比 研 究 , 它们 是 不 是 支持 向 量 机 的 普 
遍 性 质 有 待 于 进一步 的 理论 研究 . 


Ele(e)] < (7.4.25) 
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8.1 不 同 判 别 方法 的 特点 


对 于 一 个 特定 的 分 类 问题 ， 利用 何 种 判别 方法 能 达到 最 优 的 分 类 效果 , 主要 需 
考虑 两 方面 的 因素 : 待 分 类 问题 的 性 质 和 复杂 程度 , 以 及 所 采用 的 判别 方法 的 适用 
范围 和 性 能 . 为 此 , 当 我 们 面临 一 个 分 类 问题 时 ， 必须 选择 一 个 恰当 的 判别 方法 达 
到 问题 的 最 优 解 . 这 就 要 求 对 不 同 的 判别 方法 的 优 缺 点 有 所 对 比 . 

评价 一 种 判别 方法 的 优良 程度 , 大 体 需 要 考虑 以 下 几 方面 的 因素 : 

(1) 适用 问题 的 范围 . 

(2) 方法 涉及 的 理论 的 简单 性 和 准确 性 . 

(3) 判别 性 能 , 即 判 别 效 率 和 误 判 率 . 

(4) 编程 的 简单 程度 , 计算 速度 和 计算 量 . 

一 个 最 优 的 判别 方案 必须 针对 特定 问题 的 特定 要 求 综合 考虑 上 述 因 素 . 例如 对 
于 数据 量 小 的 样本 集 的 分 类 问题 , 可 以 降低 对 因素 (4) 的 要 求 而 提高 对 因素 (3) 的 
要 求 ; 而 对 于 大 样本 集 的 分 类 问题 , 必须 同时 兼顾 因素 (3) 和 (4) 的 要 求 , 等 等 . 

下 面 , 对 于 前 面 各 章 讨论 过 的 各 种 判别 方法 作 一 概略 的 评述 

1.， 贝 叶 斯 决策 

贝 叶 斯 决策 分 类 的 重要 前 提 是 , 要 求 对 应 于 各 类 别 w 出 现 的 先 验 概率 (wi) 
和 样本 ze w; 时 的 条 件 概 率 密 度 p(zjw;) 都 是 已 知 的 . 在 满足 这 两 个 条 件 的 情形 
下 , 它 适用 于 任何 问题 的 分 类 , 并 且 具 有 理论 上 的 简单 和 准确 性 . 它 的 计算 简单 , 计 
算 量 不 大 . 基于 最 小 错误 率 的 贝 叶 斯 决策 使 平均 错误 率 达 到 最 小 , 即 它 的 分 类 错误 
率 在 所 有 可 能 的 分 类 器 中 是 最 小 的 , 因 而 就 判别 性 能 而 言 , 贝 叶 斯 决策 具有 理论 上 
的 最 优 性 能 . 但 贝 叶 斯 决策 分 类 的 重要 前 提 , 即 要 求 样本 z ec ww 的 条 件 概 率 密度 
p(zlwi) 都 为 已 知 , 在 实际 问题 中 通常 是 不 满足 的 . 因此 必须 首先 对 类 条 件 概率 密 
度 p(zlwi) 进行 估计 . 这 需要 统计 学 的 一 套 复杂 的 方法 ， 一 种 常用 的 类 条 件 概 率 密 
度 是 多 维 正 态 分 布 假设 ， 在 使 用 它 时 应 注意 该 假设 在 物理 上 的 合理 性 , 或 者 先进 行 
假设 检验 , 否则 会 导致 结果 的 不 可 靠 . 

2. 线性 判别 方法 

线性 判别 方法 利用 样本 的 线性 函数 作为 样本 类 别 的 判别 函数 方法 简单 , 容易 
实现 , 计算 量 和 数据 存储 量 小 , 因而 是 实际 应 用 中 常用 的 方法 之 一 对 于 线性 可 分 
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的 数据 样本 的 分 类 问题 , 基于 线性 判别 的 分 类 器 (Fisher 线性 判别 , 感知 准则 函数 判 
别 ) 具有 最 佳 的 判别 性 能 . 对 于 两 类 而 且 线性 可 分 的 数据 , 线性 判别 分 类 器 能 够 对 
全 部 样本 正确 分 类 , 应 该 作为 分 类 方法 的 首选 . 对 于 多 类 问题 , 虽然 两 类 问题 的 准 
则 和 算法 原则 上 可 以 推广 到 多 类 情况 , 但 是 计算 相当 复杂 , 因而 编程 比较 复杂 . 对 
于 线性 不 可 分 的 数据 样本 的 分 类 问题 , 虽然 最 小 错 分 样本 数 准 则 函数 和 最 小 平方 误 
差 准 则 函数 方法 也 能 在 准则 函数 最 优化 的 意义 下 减 小 错 分 率 , 但 与 贝 叶 斯 决策 或 非 
线性 判别 方法 相 比 , 错 分 率 一 般 是 比较 大 的 , 因而 不 宜 采 用 . 

3. 决策 树 方法 

最 简单 的 二 元 决策 树 方法 -一 超 长 方 体 分 割 法 , 具有 思路 清晰 、 简 明和 物理 
的 直观 性 , 程序 设计 和 调试 特别 简单 , 计算 速度 快 等 优点 , 因而 在 实验 数据 分 析 中 
有 广泛 的 应 用 . 但 其 缺点 是 , 当 信 号 和 本 底 样本 的 条 件 概 率 密度 函数 相互 重合 而 不 
相 分 离 时 , 或 数据 存在 非 线 性 关联 时 , 信号 样本 的 判 选 效率 下 降 , 错 判 率 增加 . 此 
外 , 用 来 区 分 类 信号 区 /类 本 底 区 的 阔 值 向 量 zt 的 最 优 值 的 确定 比较 困难 , 多少 
个 变量 用 于 判 选 能 达到 分 类 器 性 能 /计算 时 间 的 最 优 组 合 比较 难以 确定 . 对 样本 数 
据 首先 进行 主 成 分 分 析 得 到 新 特征 向 量 数据 , 然后 用 超 长 方 体 分 割 法 进行 信号 和 本 
底 样 本 的 分 类 , 能 在 一 定 程度 上 提高 分 类 器 的 性 能 , 因而 值得 推荐 . 

一 般 的 二 元 决策 树 方法 通过 某 种 优化 步骤 , 在 每 一 节点 中 选择 区 分 信号 和 本 底 
能 力 最 强 的 那个 变量 , 从 而 使 其 判别 性 能 较 之 超 长 方 体 分 割 法 有 所 提高 . 但 是 , 确 
定 每 个 节点 的 最 佳 (变量 + 阔 值 ) 组 合 , 确定 最 佳 的 决策 树 长 度 , 亦 即 避免 过 度 训 
练 , 仍 是 一 个 困难 问题 ; 分 类 器 性 能 对 于 训练 样本 集 的 统计 涨 落 具 有 不 稳定 性 的 问 
题 亦 难以 解决 . 

决策 树林 法 通过 构造 多 棵 决策 树 , 经 过 加 权 后 结合 成 一 个 分 类 器 ， 它 使 得 样本 
分 类 的 正确 性 对 训练 样本 集 的 统计 涨 落 不 敏感 ， 决策 树林 法 对 非 线性 关联 数据 有 
很 强 的 分 类 判别 能 力 . 虽然 它 的 计算 的 复杂 性 和 计算 量 较 之 单个 决策 树 有 明显 的 
增加 , 避免 过 度 训 练 问题 需要 解决 , 但 是 与 人 工 神 经 网 络 相 比 较 , 决策 树林 法 的 设 
计 仍 是 比较 简单 的 , 计算 量 是 相对 小 的 . 由 于 这 种 简单 性 , 决策 树林 法 的 理论 最 优 
性 能 略 逊 于 人 工 神经 网 络 , 但 对 于 训练 样本 量 不 是 特别 大 , 而 数据 存在 复杂 相关 性 
的 情形 , 决策 树林 法 的 性 能 优 于 其 他 方法 . 

4， 人 工 神 经 网 络 

入 工 神经 网 络 也 许 是 所 讨论 过 的 方法 中 对 非 线性 复杂 关联 数据 具有 最 强 判 别 
能 力 的 一 种 方法 . 这 可 能 是 它 的 最 大 优势 . 它 的 基本 思想 似乎 是 简单 的 , 即将 n 维 
空间 的 特征 向 量 转 化 为 一 维 输出 变量 , 该 输出 变量 对 于 信号 和 本 底 样本 是 明显 分 离 
的 , 因而 易于 加 以 判别 . 然而 这 种 基本 思想 的 实现 方式 在 人 工 神 经 网 络 中 缺乏 物理 
的 直观 性 . 利用 Sigmoid 函数 作为 变换 函数 的 三 层 BP 网 络 可 以 以 任意 精度 通 近 
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任意 连续 函数 . 也 就 是 说 , 三 层 BP 网 络 原则 上 可 以 解决 任意 非 线 性 的 分 类 问题 . 
其 缺点 是 : 隐 含 层 的 节点 数 的 确定 缺乏 理论 指导 和 有 效 的 方法 , 可 能 陷入 局 部 极 小 
而 得 不 到 全 局 极 小 点 , 决定 收敛 速度 的 权 值 修 正 系数 (学 习 率 )n 的 确定 依赖 于 尝试 
和 经 验 . 对 于 BP 网 络 学 习 算法 的 改进 方案 (如 全 局 误差 极 小 化 方法 , 引入 惯性 修 
正 项 , 用 变 步 长 法 代替 一 阶梯 度 法 寻 优 ) 一 定 程度 上 改善 了 对 于 尝试 和 经 验 的 依赖 
提高 了 计算 速度 , 但 对 于 前 两 个 缺点 的 克服 帮助 不 大 . 

Hopfield 网 络 是 一 种 全 连接 型 反馈 网 络 , 连续 型 Hopfield 神经 网 络 中 各 神经 元 
采用 并 行 方式 工作 , 所 以 在 信息 处 理 的 并 行 性 、 联 想 性 、 实 时 性 方面 有 更 强 的 能 力 . 
但 是 , 它 与 BP 网 络 一 样 , 用 某 个 目标 函数 的 全 局 极 小 作为 算法 搜索 和 网 络 状 态 变 
化 的 依据 , BP 网 络 的 目标 函数 是 误差 函数 , Hopfield 网 络 中 是 能 量 函数 . 因此 同样 
存在 可 能 陷入 局 部 极 小 而 得 不 到 全 局 极 小 的 问题 . 

引入 了 模拟 退火 算法 的 Boltzmann 机 即 BM 网 络 比 BP 网 络 和 Hopfield 网 络 
有 更 高 的 概率 达到 全 局 极 小 , 且 这 一 算法 具有 很 强 的 通用 性 , 特别 是 对 复杂 性 较 高 、 
规模 较 大 、 对 问题 的 有 关 知 识 了 解 较 少 的 情况 , 它 具 有 明显 的 优越 性 . 但 是 , BM 网 
络 学 习 规则 中 , 包含 着 其 工作 规则 , 学 习 与 反 学 习 交 蔡 进 行 , 因此 , 网 络 计 算 量 大 ， 
特别 是 当 网 络 温度 下 降 速 度 较 慢 时 , 网 络 收敛 过 程 缓慢 , 这 是 制约 BM 网 络 算法 应 
用 的 主要 障碍 . 

不 论 哪 种 神经 网 络 , 它 的 设计 、 训 练 都 是 比较 复杂 并 且 耗 时 的 ,计算 量 和 数据 
存储 量 很 大 , 并 需要 有 足够 统计 量 的 训练 样本 集 . 鉴于 它 的 判别 能 力 很 强 , 一 般 用 
于 数据 关联 复杂 、 多 类 别 的 分 类 问题 , 例如 粒子 物理 实验 数据 分 析 中 的 粒子 鉴别 
问题 . 

5， 近邻 法 

最 近邻 法 的 决策 思想 简单 而 又 直观 , 对 于 任意 待 归 类 的 样本 zx, 判定 它 与 离 它 
欧 氏 距离 最 近 的 那个 训练 样本 同类 . 它 的 显著 缺点 是 有 较 高 的 错 判 率 . & 近邻 法 是 
最 近邻 法 的 一 种 推广 . 对 于 任意 待 归 类 的 样本 z, 取 它 的 个 近邻 训练 样本 , 这 大 
个 近邻 样本 中 哪 一 个 模式 类 的 样本 数量 最 多 , 就 把 样本 z 判 为 哪 一 类 , 这 一 做 法 减 
小 了 其 错 判 率 . 近邻 法 错误 率 介 于 se 和 2ep 之 间 , 其 中 ep 为 贝 叶 斯 决策 错误 率 . 
无 论 是 近邻 法 还 是 近邻 法 , 其 基本 思想 和 算法 步骤 都 十 分 简单 ,， 计算 速度 快 , 其 
性 能 对 于 线性 可 分 或 不 可 分 数据 没有 明显 差别 , 这 使 它 成 为 常用 的 重要 分 类 方法 之 
一 . 它 的 缺点 是 , 每 次 决策 都 要 计算 待 识别 样本 z 与 全 部 训练 样本 之 间 的 距离 并 进 
行 比较 . 当 训 练 样本 量 N 很 大 时 , 存储 量 和 计算 量 都 较 大 . 上 述 的 性 能 分 析 是 渐 近 
的 平均 结果 , 即 要 求 N 一 oo, 这 在 实际 场合 是 无 法 实现 的 , 实际 错 判 率 与 预期 值 可 
能 存在 差别 , 因此 会 产生 较 大 的 风险 . 

剪辑 近邻 法 利用 类 别 已 知 的 训练 集 来 估计 错 分 率 应 该 是 较为 准确 的 ， 特 别 是 
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k 近邻 评 辑 法 和 重复 剪辑 近邻 法 当 k 一 co 时 其 错误 率 收敛 于 最 优 错 误 率 cp, 提高 
了 信和 号 样本 的 判 选 效 率 . 具有 拒绝 决策 的 近邻 法 和 前 辑 近邻 法 则 减 小 了 决策 出 
现 高 风险 的 概率 , 减 小 了 错误 率 . 这 些 计 算 都 不 算 复杂 , 而 对 分 类 器 的 性 能 有 明显 
的 提高 , 因而 推荐 使 用 . 

6. 概率 密度 估计 量 方法 

押 谓 概率 密度 估计 量 方法 , 其 实质 即 是 利用 类 别 已 知 的 训练 样本 集 来 求 得 类 条 
件 概率 密度 p(zlw) 的 估计 PB(z|wi),(i = 1,2,…,c), 然后 用 贝 叶 斯 判别 方法 来 进行 
样本 分 类 ， 显 然 , 该 方法 的 性 能 依赖 于 (zjwi) 对 于 类 条 件 概率 密度 p(zlwi) 的 逼 
近 程 度 . 在 投影 似 然 比 估计 中 , 特征 向 量 z = (zl ,zxzn)7 的 nn 个 变量 考虑 为 互 不 
关联 , 这 时 类 条 件 概 率 密度 可 以 因子 化 为 n 个 变量 边沿 概率 密度 的 简单 乘积 . 这 种 
方法 固然 计算 简单 , 计算 量 和 存储 量 都 不 大 , 但 实际 数据 往往 存在 复杂 的 关联 , 如 
果 对 这 种 关联 数据 使 用 投影 似 然 比 估计 方法 分 类 , 其 错 分 率 总 是 比较 大 , 并 且 具 有 
某 种 不 可 控制 性 . 利用 训练 样本 估计 多 维 类 条 件 概 率 密度 的 方法 为 PDE-RS (PDE 
range search) 方法 , 它 的 基本 思想 是 利用 ky 近邻 方法 估计 多 维 类 条 件 概率 密度 . 
为 了 使 得 (zlw;) 能 很 好 地 逼近 类 条 件 概 率 密度 p(zlwi), 需要 很 大 数量 的 已 知 类 别 
的 训练 样本 集 , 这 使 得 PDE-RS 方法 的 计算 量 和 存储 量 都 比较 大 , 计算 速度 较 慢 . 
但 是 它 的 编程 相对 简单 , 容易 调试 和 追踪 , 能 处 理 复杂 的 非 线 性 关联 . 在 特征 变量 
维 数 不 特 别 高 、 训 练 样本 量 足 够 大 的 情形 下 ,该 分 类 器 的 性 能 具有 竞争 力 , 即 信号 
样本 的 选择 效率 较 高 , 错 分 率 较 小 . 

7. 瑟 矩阵 判别 

H 矩阵 判别 方法 实际 上 是 两 类 问题 的 多 维 正 态 条 件 概率 密度 的 贝 叶 斯 判别 方 
法 . 五 矩阵 判别 方法 的 优点 是 算法 简单 、 明 了 , 但 是 它 的 前 提 是 信和 号 /本 底 样本 集 
服从 多 维 正 态 分 布 , 这 限制 了 它 的 适用 范围 . 即使 符合 这 一 前 提 , Fisher 判别 方法 
的 性 能 也 与 之 相当 或 更 优 . 由 于 这 些 因素 , 妃 答 阵 判别 方法 在 实际 中 使 用 较 少 . 

8. 函数 判别 分 析 

函数 判别 分 析 的 基本 思想 是 : 设 用 以 决定 样本 类 别 的 判别 函数 为 go(z, a), 它 是 
特征 向 量 和 可 调 参 数 向 量 a 的 函数 . FDA 法 根据 类 别 已 知 的 训练 样本 集 进 行 训 
练 求 得 a 的 值 , 使 得 对 于 信和 号 样本 , 判别 函数 的 值 尽 可 能 接近 1, 本 底 样本 的 判别 
函数 的 值 尽 可 能 接近 0, 这 样 就 实现 了 样本 的 分 类 . 对 于 线性 不 可 分 的 数据 , 一 般 
找 不 到 这 样 的 判别 函数 , 目前 的 方法 只 是 使 被 错 分 的 样本 数 达 到 某 种 极 小 的 解 . 该 
方法 的 优点 是 判别 函数 具有 解析 形式 , 解 题 方法 相对 简单 , 而 且 问 题 的 求解 过 程 具 
有 “透明 性 ”, 算法 易于 跟踪 和 调整 . 由 于 函数 判别 分 析 可 以 包含 非 线性 关联 项 ， 
此 对 于 存在 非 线性 关联 的 数据 样本 , 其 判别 性 能 应 该 优 于 最 小 错 分 样本 数 准则 的 线 
性 判别 函数 法 . 对 于 具有 复杂 非 线性 关联 的 数据 样本 , 其 判别 性 能 取决 于 判别 函数 
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的 “ 保 真 性 ”. 由 于 复杂 非 线性 关联 一 般 来 说 很 难 用 解析 表 式 加 以 精确 描述 , 因此 ， 
对 于 这 类 数据 样本 , 其 判别 性 能 一 般 来 说 不 如 神经 网 络 、 决 策 树 和 支持 向 量 机 . 该 
方法 的 另 一 个 明显 缺点 是 判别 函数 g(z, a) 的 形式 是 未 知 的 , 需要 依靠 使 用 者 对 于 
待 分 类 样本 集 的 分 布 有 相当 程度 的 了 解 后 依靠 经 验 来 加 以 确定 , 这 在 许多 情况 下 是 
一 件 极 为 困难 的 任务 . 因此 g(x, a) 的 形式 是 针对 特定 问题 的 , 缺乏 普 适 性 . 一 般 只 
有 对 于 关联 不 太 复杂 的 数据 样本 , 可 以 用 简单 的 函数 (如 多 项 式 函 数 ) 作为 判别 函 
数 g(z, a), 这 种 情形 下 使 用 函数 判别 分 析 才 是 实际 可 行 的 . 

9. 支持 向 量 机 

支持 问 量 机 对 样本 进行 分 类 的 基本 思想 是 利用 全 部 类 别 已 知 的 训练 样本 集中 
的 一 小 部 分 样本 (其 特征 向 量 称 为 支持 向 量 ) 来 建立 一 个 超 平面 , 达到 判别 信号 /本 
底 的 目的 . 该 方法 需要 利用 核 函 数 (如 多 项 式 、Gauss 函数 、Sigmoidal 函数 等 ), 它 
的 判别 性 能 有 赖 于 核 函 数 形式 及 其 参数 的 选择 (如 Gauss 函数 的 标准 高 差 ), 以 及 
费用 参数 C 的 选择 , 而 且 最 佳 选择 一 定 程度 上 是 问题 依赖 的 . 分 类 器 的 训练 时 间 
大 体 上 正比 于 ”2N, 这 里 n 是 特征 向 量 维 数 ,N 是 训练 样本 数 , 因此 计算 量 大 体 与 
PDE-RS 方法 、 决 策 树林 法 、k 近邻 法 相 若 . 支持 向 量 机 方法 的 优点 是 方法 中 的 可 
调 参 数 少 , 训练 比较 容易 完成 ; 对 于 复杂 非 线 性 关联 数据 的 分 类 性 能 好 , 可 以 与 决 
策 树林 法 、 人 工 神经 网 络 的 判别 性 能 相 比 拟 . 

综合 上 述 讨论 , 对 于 一 个 特定 问题 如 何 选择 一 个 适当 的 判别 方法 可 有 如 下 的 一 
般 性 考虑 . 对 于 线性 可 分 的 数据 样本 , 应 选择 线性 判别 方法 . 对 于 线性 不 可 分 的 数 
据 样 本 ,如果 关 联 比较 简单 并 且 研 究 者 对 数据 的 分 布 的 函数 形式 已 有 相当 好 的 了 
解 , 可 以 采用 函数 判别 分 析 . 当 数 据 存在 非 线 性 关联 但 特征 变量 维 数 不 特别 高 、 训 
练 样本 量 足 够 大 的 情形 下 , 可 采用 PDE-RS 方法 . 对 于 一 般 的 高 维 、 非 线性 关联 数 
据 样本 , 应 采用 (剪辑)k 近邻 法 、 决 策 树林 法 或 支持 向 量 机 . 对 于 存在 很 复杂 的 非 
线性 关联 的 高 维 数据 , 错误 率 要 求 严 苛 的 问题 , 应 考虑 采用 人 工 神经 网 络 . 

文献 [45] 对 于 各 种 判别 方法 的 性 能 给 出 了 表 8.1 所 示 的 评价 , 可 供 参 考 . 


表 8.1 文献 [45] 对 各 种 判别 方法 的 性 能 评价 
超 长 方 ” 投 影 PDE-RS 上 近邻 法 占 算 阵 Fisher 神经 决策 ”支持 


体 分 割 似 然 比 判别 网 络 树林 法 向 量 机 
性 能 ”线性 或 无 关联 ”十 十 十 十 十 十 + 十 十 二 十 十 
非 线性 关联 0 0 十 十 十 十 0 0 ++ 十 二 十 二 
速度 训练 方式 0 十 十 十 十 十 十 + 二 二 + 十 0 0 
应 用 方式 二 十 十 十 0 十 + 十 ++ + 十 十 


稳健 性 ”过 度 训练 十 十 十 十 十 二 十 ”十 十 十 0 十 十 
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续 表 
超 长 方 投影 PDE-RS 大 近邻 法 矩阵 Fisher 神经 决策 ”支持 
体 分 割 似 然 比 判别 网 络 树林 法 向 量 机 
低 判 别 力 变量 二 十 + 0 0 + 十 二 + 十 二 + 十 
维 数 灾难 0 十 十 0 0 + 二 ++ 十 十 
方法 透明 性 十 十 十 十 十 十 ++ ++ 0 0 0 


注 : + 二 表示 性 能 优良 , + 表示 性 能 一 般 , 0 表示 性 能 差 . 维 数 灾难 表示 当 特 征 向 量 维 数 增高 时 , 训练 
样本 统计 量 和 运算 时 间 的 增加 .方法 稳健 性 指 对 于 过 度 训练 和 使 用 判别 能 力 不 强 的 变量 的 不 敏感 性 . 
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针对 高 能 物理 实验 中 数据 量 浩大 , 所 寻找 的 信号 事例 可 能 相当 稀少 这 一 特点 ， 
由 一 批 数理 统计 学 家 和 高 能 物理 实验 数据 分 析 工 作者 合作 , 将 多 种 判别 方法 编写 
成 易于 选择 和 实行 的 计算 程序 , 并 有 机 地 总 汇 在 一 起 , 以 便于 最 大 程度 地 挖掘 数据 
包含 的 有 助 于 事例 类 别 判 选 的 信息 , 寻找 适合 所 研究 问题 的 最 佳 判别 方法 ， 在 高 
能 物理 领域 中 , 朝 这 个 方向 努力 的 初期 工作 是 BaBar 合作 研究 组 1998 年 研发 的 
Cornelius 程序 包 559. 近期 则 有 StattPatternRecognition 程序 包 [57,58] 和 TMVA 程 
序 包 [ 的 . 这 里 仅 对 TMVA 程序 包 作 一 简单 介绍 . 

TMVA (toolkit for multivariate data analysis) 是 一 个 多 元 统计 分 析 的 工具 性 程 
序 包 , 该 程序 包 包含 的 判别 方法 包括 : 

超 长 方 体 分 割 法 

总 体 概 率 密度 的 投影 似 然 比 估计 

总 体 概 率 密度 的 多 维 概率 密度 估计 (PRD-RS) 

k 近邻 法 

Fisher 判别 

函数 判别 分 析 

五 矩阵 判别 

人 工 神 经 网 络 

支持 向 量 机 

决策 树林 法 

Predictive learning via rule ensembles 
它们 几乎 覆盖 了 本 书 讨论 的 大 部 分 判别 方法 (其 中 最 后 一 种 方法 本 书 未 加 叙述 ). 因 
此 TMVA 也 适用 于 一 般 的 多 元 统计 分 析 问 题 . 

TMVA 已 经 集成 进 基于 C++ 语言 的 面向 对 象 的 数据 分 析 系 统 ROOTI59], 因而 
具有 强大 和 方便 的 各 种 服务 功能 和 友好 的 使 用 界面 . 对 所 有 这 些 判 别 方法 , TMVA 
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可 以 完成 分 类 器 的 训练 、 测试 和 性 能 评估 , 从 而 便于 使 用 者 从 中 选择 对 自身 问题 最 
合适 的 方法 . 

TMVA 分 两 阶段 来 完成 一 个 待 研究 的 分 类 问题 . 第 一 阶段 称 为 训 练 阶段 , 针对 
使 用 者 提供 的 同一 组 训练 样本 和 选 定 的 若干 种 判别 方法 , 进行 相应 的 各 分 类 器 的 训 
练 、 测 试 和 性 能 评估 ， 这 一 阶 段 的 任务 由 程序 TMVAnalysis (运行 宏 TMVAnaly- 
sis.C) 完成 . 第 二 阶段 称 为 应 用 阶段 ， 利用 使 用 者 通过 第 一 阶段 的 各 分 类 器 的 性 能 
评估 后 选 定 的 最 佳 判 别 方法 , 对 待 分 类 的 实验 数据 样本 进行 判别 分 类 . 这 一 阶段 的 
任务 由 程序 TMVApplication (运行 宏 TMVApplication.C) 完成 .这 两 个 阶段 的 程 
序 流程 框图 见 图 8.1. 
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图 8.1 TMVA 训练 程序 ( 左 ) 和 TMVA 应 用 程序 ( 右 ) 流程 框图 


在 TMVA 训练 程序 中 , 使 用 者 须 提供 一 个 用 于 训练 的 脚本 文件 (script), 它 可 
以 是 ROOT 宏文 件 , C++ 可 执行 文件 或 python 脚本 文件 . 该 脚本 文件 用 来 产生 
一 个 ROOT 目标 文件 和 一 个 对 象 文件 TMVA Factory, 后 者 按照 使 用 者 的 意愿 组 
织 TMVA 内 部 程序 模块 的 工作 方式 . 首先 将 使 用 者 提供 的 信号 /本 底 训 练 样本 数 
据 和 测试 样本 数据 加 以 标识 和 写 入 内 存 , 然后 以 订单 的 方式 (给 定 类 型 标识 和 自 定 
义 的 名 称 ) 选择 需要 测试 的 判别 方法 种 类 . TMVA 按照 订单 的 要 求 , 逐一 对 预订 的 
各 判别 方法 进行 训练 、 测试 和 性 能 评估 . 每 种 分 类 器 的 训练 结果 写 入 相应 的 权 文 件 
(weight file), 而 性 能 评估 的 诸多 直方 图 写 入 ROOT 目标 文件 . 根据 对 各 分 类 器 的 性 
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能 评估 数据 , 使 用 者 可 以 选 定 对 所 研究 问题 最 合适 的 判别 方法 . 

在 TMVA 应 用 程序 中 , 使 用 者 须 提供 一 个 用 于 应 用 的 脚本 文件 , 它 产生 一 个 
ROOT 目标 文件 和 一 个 对 象 文件 TMVA Reader, 后 者 作为 使 用 者 和 TMVA 内 部 
程序 模块 之 间 的 界面 的 作用 与 TMVA 训练 程序 中 的 TMVA Factory 相仿 . 在 其 初 
始 化 阶段 , 它 写 入 使 用 者 提供 的 待 测 样本 的 数据 , 以 订单 的 方式 选 定 在 训练 阶段 确 
定 的 对 本 问题 最 合适 的 分 类 器 , 以 及 该 分 类 器 的 权 文 件 (weight fle), 然后 TMVA 
逐一 读 入 样本 的 数据 , 并 对 每 个 样本 的 类 别 用 给 定 的 判别 方法 作出 分 类 判别 . 

TMVA 还 提供 了 对 原始 输入 数据 作 预 处 理 的 方便 手段 , 包括 对 每 个 事例 的 贡 
献 作 加 权 处 理 , 每 个 输入 变量 的 值 变换 到 [0,1] 区 间 内 的 归 一 化 处 理 . 归 一 化 处 理 
对 于 Fisher 判别 , 函数 判别 分 析 FDA, 神经 网 络 判别 是 必要 和 有 帮助 的 ; 而 对 决策 
树林 法 、 多 维 概率 密度 估计 和 上 近邻 法 不 必要 . TMVA 还 提供 了 对 原始 输入 数据 
作 消除 线性 关联 变换 的 手段 . 需要 注意 的 是 , 仅 对 存在 线性 相关 性 和 高 斯 分 布 的 输 
入 变量 , 消 线 性 关联 变换 才能 发 挥 其 应 有 的 作用 , 可 改善 投影 似 然 比 估计 、 多 维 概 
率 密度 估计 、 超 长 方 体 分 割 法 、 决 策 树林 法 等 分 类 器 的 判别 性 能 . 但 对 于 实际 的 情 
形 , 输入 变量 往往 不 满足 这 些 要 求 . 在 这 种 情形 下 对 原始 输入 数据 作 消 除 线性 关联 
的 变换 不 但 无 益 而 且 可 能 有 害 . TMVA 还 提供 了 对 原始 输入 数据 作 主 成 分 分 析 的 
手段 . 一 般 而 言 , 主 成 分 分 析 对 于 提高 分 类 器 的 性 能 是 有 帮助 的 . 

为 了 方便 初学 者 熟悉 TMVA 的 使 用 方法 和 步骤 , TMVA 提供 了 一 个 练习 性 的 
实例 来 运行 宏 TMVAnalysis.C. TMVA 利用 一 组 TMVA 给 定 的 数据 来 进行 训练 和 
测试 . 每 个 事例 的 特征 向 量 是 线性 相关 的 4 维 正 态 分 布 随机 变量 的 样本 点 . 对 于 信 
号 事例 和 本 底 事 例 , 4 个 分 量 的 期 望 值 和 标准 偏差 各 不 相同 . 训练 过 程 结 束 后 , 提 
供 诸多 输出 信息 , 包括 信号 /本 底 事例 输入 变量 的 关联 矩阵 ,各 分 量 在 判别 分 类 过 
程 中 重要 性 的 次 序 , 分 类 器 形态 参数 的 总 汇 , 概率 密度 的 拟 合 优 度 (如 果 加 以 申请 )， 
不 同 分 类 器 判定 的 信号 /本 底 之 间 的 关联 , 信和 号 /本 底 决 策 的 重 释 , 给 定 本 底 排除 率 
下 的 信号 效率 , 以 及 分 类 器 其 他 性 能 参数 的 估计 , 等 等 

训练 过 程 结束 后 , 除了 权 文 件 包含 了 选 定 的 分 类 器 的 训练 结果 外 , 一 个 使 用 者 
图 像 界面 (graphical user interface, GUI) 被 显示 出 来 , 如 图 8.2 所 示 . 它 共 有 19 
个 按钮 , 按 动 任 一 个 按钮 就 可 执行 相应 的 ROOT 宏 命 令 . 图 中 , (1a)~(1c) 显示 信 
号 /本 底 训 练 样本 的 输入 变量 的 原始 分 布 , 退 关联 变换 后 的 分 布 和 主 成 分 分 析 后 的 
分 布 . (2a)~(2c) 显示 这 三 种 情形 下 信和 号 /本 底 训 练 样本 的 所 有 的 一 对 输入 变量 的 散 
点 图 . (3) 显示 信号 /本 底 训 练 样本 输入 变量 间 的 线性 关联 系数 . (4a)] 显示 被 训练 的 
分 类 器 对 于 测试 样本 集 的 信号 /本 底 分 布 . (4b),(4c) 相应 的 概率 分 布 和 Rarity 分 布 . 
(5a) 显示 分 类 器 的 信号 /本 底 判 选 效率 以 及 信和 号 纯度 (假定 信号 /本 底 训 练 样本 事例 
数 相等 ) 作为 分 类 器 判别 信号 /本 底 的 阀 值 的 关系 曲线 . (5b) 显示 本 底 排 除 率 一 
信号 效率 曲线 . (6) 投影 似 然 比 判别 法 中 使 用 的 信号 /本 底 概率 密度 与 训练 样本 数据 
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的 比较 . (7a) 多 层 前 向 神经 网 络 的 各 层 连 接 权 和 矩阵 . (7b) 多 层 前 向 神经 网 络 对 于 训 
练 样本 集 和 测试 样本 集 的 误差 参数 的 收敛 性 (检查 过 度 训 练 )，(8) 决策 树林 法 中 第 
一 棵 决策 树 的 构架 图 . (9) 分 类 器 的 概率 密度 与 训练 数据 的 比较 . (10) RuleFit 分 类 
器 两 维 图 . (11) 退出 图 像 界 面 . 


{la) Input Variables 


(1b) [Decorrelated Input Variables] | 


(1c) [PCA-transformed Input Variables] 


(2a) Iaput Variable Correlations (scatter profiles) 


(2b) [Decorrelated Input Variable Correlations (scatter profiles)] | 


(2c) [PCA-transformed Input Variable Correlations (scatter profiles)] 


(3) Input Variable Correlation Coefficients | 
(4a) Classifier Output Distributions | 
(4b) Olassifier Probability Distributions | 
(4c) Classifier Rarity Distributions | 


(5aj Classifier Cut Efficiencies 


(5b) Classifier Background Rejection vs Signal Efficiency (ROG curve) 
(6) [Likelihood Reference Distributiuonsl 


(7a) [Network Architecturel 
(7b) [Network Convergence Test] 


. | ， | 
(8) [Decision Tree (#1) | 


(9) PDFs of Classifiers 


~ (9)PDFsofClssifiors | 
(10) [Rule Ensemble Importance Plots| | 
(11)Quit | 

图 8.2 TMVA 中 用 来 执行 宏 命令 , 显示 训练 结果 的 图 像 界 面 (GUT) 

图 8.3~8.6 是 练习 性 实例 的 一 些 相关 的 输出 . 如 图 8.3 是 输入 变量 varl~var4 
的 一 些 分 布 . 图 8.4 是 输入 变量 var3 和 var4 的 相互 关联 . 左 图 是 原始 散 点 图 , 可 以 
看 到 变量 var3,var4 之 间 存 在 正 关联 . 右 图 是 输入 变量 作 了 退 关联 处 理 之 后 的 散 点 
图 , 退 关 联 后 的 新 变量 var3,var4 之 间 基 本 消除 了 相互 间 的 关联 . 

图 8.5 是 4 种 分 类 器 (投影 似 然 比 估计 、 多 维 概率 密度 估计 、 多 层 前 向 神经 网 
络 、 决 策 树林 法 ) 对 同一 组 测试 样本 的 输出 值 y 的 分 布 . 测试 样本 分 成 信号 样本 和 
本 底 样本 两 类 , 对 于 这 两 类 样本 , 对 应 的 y 的 分 布 是 归 一 化 的 , 即 直方 图 下 的 面积 
等 于 1. 因此 直方 图 接近 于 y 的 概率 密度 . 按照 TMVA 的 设计 和 约定 , 分 类 器 对 信 
号 样本 的 输出 值 y 集中 于 高 端 (接近 1), 而 本 底 样本 的 输出 值 y 集中 于 低 端 (接近 
0). 当选 定 一 个 阔 值 yn 作为 分 类 器 对 “信号 ” 和 “本 底 ” 的 区 别 界限 , 分 类 器 将 
y > yn 的 样本 判定 为 “信号 ”事例 , 而 将 y < ga 的 样本 判定 为 “本 底 ” 事例. 于 
是 , 图 8.5 中 , y > ytp 的 信号 样本 直方 图 的 面积 就 是 分 类 器 将 信号 样本 判 选 为 “ 信 
与 ”事例 的 判 选 效 率 , 用 sss 表示 ; y < ys 的 信和 号 样本 直方 图 的 面积 就 是 分 类 器 将 
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图 8.3 TMVA 练习 性 实例 输入 变量 varl~var4 的 一 些 分 布 
每 张 图 右边 的 数字 表示 信号 (S) 和 本 底 (B) 事例 的 下 溢 {U) 和 
上 溢 (OO) 事例 数 占 全 部 事例 数 的 比例 


var4d 
vard 
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8.4 TMVA 练习 性 实例 输入 变量 var3 和 var4 的 相互 关联 
左 图 是 原始 散 点 图 , 变量 var3,var4 之 间 存 在 正 关联 . 右 图 是 输入 变量 作 了 退 关联 处 理 之 后 的 散 点 图 ， 
退 关 联 后 的 新 变量 var3,var4 之 间 基 本 消除 了 相互 间 的 关联 
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图 8.5 TMVA 练习 性 实例 的 输出 
4 种 分 类 器 对 同一 组 输入 样本 的 输出 值 分 布 . 横 坐 标 表示 分 类 器 的 输出 值 y， 纵 坐 标 表示 输出 值 的 概率 
分 布 . 划 斜 线 的 直方 图 表示 对 本 底 样本 的 输出 值 分 布 . 带 阴 影 的 直方 图 表示 对 信和 号 样本 的 输出 值 分 布 . 
Likelihood, PDERS, MLP, BDT 分 布 表 示 投 影 似 然 比 估计 、 多 维 概率 密度 估计 、 多 层 前 向 
神经 网 络 、 决 策 树林 法 的 判 选 结果 . 每 张 图 右边 的 数字 的 含义 见 图 8.3 的 说 明 


信和 号 样本 判 选 为 “本 底 ” 事例 的 概率 , 用 eps 表示 ， 划 斜 线 的 (本 底 样 本 ) 直方 图 
中 y < ya 那 部 分 面积 称 为 本 底 排除 率 epp， 它 表 示 分 类 器 将 这 部 分 本 底 样本 判 
别 为 “本 底 ” 事例 从 而 从 “信和 号 ”事例 中 排除 出 去 ; y > yn 那 部 分 面积 称 为 本 底 
误 判 率 esp, 它 表示 分 类 器 将 这 部 分 本 底 样 本 错误 地 判别 为 “信和 号 ， 车 例 . 显然 有 
EBB 二 1 一 esB. 一 个 性 能 优良 的 分 类 器 要 求 信号 效率 sss 和 本 底 排除 率 cap 同时 
接近 1, 即 分 类 器 将 信和 号 样本 判 为 “信号 ”事例 和 将 本 底 样本 判 为 “本 底 ” 事例 的 
概率 同时 接近 1. 

图 8.6 中 的 曲线 为 5 种 分 类 器 对 于 这 组 测试 样本 的 信和 号 效率 与 本 底 排除 率 的 
关系 曲线 . 由 图 可 见 , 对 于 同样 的 信和 号 效率 ， 本 底 排除 率 从 高 到 低 的 次 序 为 多 层 前 
同 神经 网 络 (MLP)、 决 策 树林 法 (BDT)、 多 维 概率 密度 估计 (PDERS)、 投 影 似 然 
比 佑 计 (Likelihood) 和 Fisher 线性 判别 . 类 似 地 ， 对 于 同样 的 本 底 排 除 率 , 信号 效 
率 从 高 到 低 的 次 序 与 上 述 相同 . 也 就 是 说 ， 对 于 这 一 特定 的 测试 样本 集 , 这 一 次 序 
就 是 这 几 种 分 类 器 性 能 优良 度 的 排列 顺序 (不 考虑 计算 时 间 和 训练 复杂 性 的 因素 ). 

除了 给 出 输出 值 y, TMVA 还 给 出 了 信和 号 和 本 底 的 对 于 y 的 概率 密度 fs(y) 和 
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fe(y) (例如 图 8.5 所 示 . 可 通过 按 图 8.2 的 (4b) 按键 实现 ). 依据 它们 , 可 以 计算 单 
个 样本 的 分 类 概率 . 样本 i 被 分 类 器 判别 为 “信和 号 ”事例 的 概率 为 


rsfs(i) 
P00) = +) (8.2.) 


| 一 - 十 
: -er 


: & Fisher : 


本 底 排除 率 eps 


020 01 02 03 04 05 06 07 08 09 1 
信号 效率 sss 
图 8.6 TMVA 练习 性 实例 的 输出 


5 种 分 类 器 对 同一 组 输入 样本 的 输出 值 分 布 . 图 中 曲线 为 5 种 分 类 器 的 信号 效率 ess( 横 坐标 ) 与 
本 底 排 除 率 epB( 纵 坐标 ) 的 关系 曲线 . Fisher 表示 Fisher 线性 判别 的 曲线 , 它 与 投影 


似 然 比 估计 (Likelihood) 的 曲线 重合 


其 中 , rs = Ns/(Ns + Ns) 是 待 分 类 样本 和 集中 信号 样本 所 占 比 例 的 期 望 值 ，Ns(B，) 
是 待 分 类 样本 集中 信号 (本 底 ) 样本 数 的 期 望 值 . 依据 f(y), 还 可 计算 分 类 器 的 
Rarity R(ys) (图 像 界面 (4c) 按键 ), 定义 为 


Rys)= 人 fp(y)dy. (8.2.2) 


其 中 , fa(y) 为 分 类 器 对 于 本 底 样 本 输出 值 y 的 概率 密度 . R(ys) 有 如 下 性 质 : 对 于 
本 底 样本 , R(ys) 服从 [0,1] 区 间 的 均匀 分 布 . 而 对 于 信号 样本 , Rarity Rs(ys) 由 下 
式 表示 ;: 

Rs(ve)= / fs(y)ay, (8.2.3) 


其 中 , fs(y) 为 分 类 器 对 于 信号 样本 输出 值 y 的 概率 密度 . Rs(ye) 集中 于 1 附近 . 于 
是 可 以 比较 不 同 分 类 器 的 信号 Rs(ye) 分 布 , 越 集中 于 1 分 类 器 的 性 能 越 好. 投影 
似 然 比 估计 和 Fisher 估计 的 Rarity 分 布 见 图 8.7. 

可 以 看 到 , 两 种 分 类 器 的 本 底 样本 的 Rarity 分 布 都 是 均匀 的 , 但 Fisher 线性 
判别 的 信号 样本 的 Rarity 分 布 更 集中 于 1, 因而 对 于 TMVA 练习 性 实例 的 输入 数 
据 而 言 , 它 比 投影 似 然 比 估计 有 更 好 的 判别 性 能 . 
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图 8.7 TMVA 练习 性 实例 的 输出 
投影 似 然 比 估计 ( 左 ) 和 Fisher 线性 判别 ( 右 ) 的 Rarity 分 布 . 划 斜 线 的 直方 图 表示 本 底 样本 的 
民 (ye) 分 布 , 即 横 坐 标 为 R(wyp) 值 , 级 坐标 为 取 值 R(yB) 的 概率 ; 集中 于 1 附近 的 直方 图 表示 
信号 样本 的 Rs (ye) 分 布 . 即 纵 坐 标 为 取 值 Rs (ys) 的 概率 . 每 张 图 右边 的 数字 的 含义 


见 图 8.3 的 说 明 


所 谓 的 最 优 分 类 器 很 大 程度 上 取决 于 使 用 者 对 于 问题 的 要 求 、 除了 上 述 的 分 
类 器 性 能 图 , TMVA 还 给 出 其 他 一 些 表 征 分 类 器 性 能 的 参数 供 使 用 者 考虑 ; 3 种 具 
有 代表 性 的 本 底 误 判 率 值 ess (等 于 1- 本 底 排除 率 ) 对 应 的 信号 效率 值 sss; 分 类 
器 的 判别 能 力 (separation), 定义 为 [56] 


(5°) = MR Ray (8.2.4) 

式 中 , fs(y) 和 fe(y) 分 别 是 分 类 器 对 信号 和 本 底 样本 的 输出 值 y 的 概率 密度 ( 当 
fs(y) = fe(y), (52) =0; 当 fs(y) 与 fa(y) 相互 隔离 , (S2) =1.). 

TMVA 还 提供 了 若干 手段 , 通过 比较 训练 样本 集 和 测试 样本 集 的 同一 分 类 器 
的 分 类 结果 来 确定 过 度 训 练 的 影响 . 这 种 比较 对 于 可 能 存在 过 度 训 练 的 决策 树林 法 
和 神经 网 络 判 别 法 是 有 帮助 的 . 

有 些 分 类 器 的 构建 过 程 中 需要 使 用 参数 拟 合 方法 来 求 得 估计 量 的 最 优 值 例如 
在 超 长 方 体 分 割 法 、 二 元 决策 树 中 阅 值 的 优化 ， 函数 判别 分 析 中 羯 别 函 数 的 优化 ， 
”等 . TMVA 提供 了 4 种 拟 合 程序 包 可 以 在 TMVA 环境 下 使 用 . 

综 上 所 述 , TMVA 不 但 提供 了 相当 多 种 类 的 分 类 器 , 而 且 提 供 了 设计 和 运行 分 
类 器 所 需 的 很 多 相关 的 功能 程序 ， 它们 以 一 种 友好 的 界面 和 方式 提供 给 使 用 者 , 因 
此 , 对 于 实验 数据 分 析 工 作者 是 一 个 极 有 帮助 的 多 元 统计 分 析 系 统 . 
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